python爬虫小例子

最新推荐文章于 2024-11-08 13:43:44 发布

dream梦

最新推荐文章于 2024-11-08 13:43:44 发布

阅读量169

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/u011413452/article/details/118884887

版权

Python爬虫观察者网足球新闻 CSV存储数据抓取

关键词由CSDN通过智能技术生成

python 专栏收录该内容

8 篇文章 4 订阅

订阅专栏

爬取观察者网,并将爬取内容以csv格式存储

# 导入模块
import requests
import csv

# 新建csv文件并打开文件
csv_file = open('articles.csv', 'w', newline='', encoding='utf-8')

# 用csv.writer()方法创建一个writer对象
writer = csv.writer(csv_file)

# 用writer.writerow()方法写入表头
writer.writerow(['标题', '链接'])

# 设置爬取链接
url = "https://user.guancha.cn/main/search-v2"

# 设置循环页数
for page in range(1, 4):
    
    # 封装参数
    params = {'page': page, 'type': 'search_news',
              'order': '1', 'keyword': '足球'}

    # 设置请求头
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'}

    # 发送请求，并把响应内容赋值到变量res
    res = requests.get(url, params=params, headers=headers)

    # 将json格式的数据转成字典
    articles = res.json()

    # 提取所有的新闻数据
    data = articles['data']['items']

    # 遍历 data 列表，提取出里面的新闻标题与链接
    for i in data:

        # 取出行数据，放到列表里
        row = [i['title'], i['url']]

        # 打印行数据
        print(row)

        # 写入行数据
        writer.writerow(row)

# 关闭文件
csv_file.close()