Python 爬取今日头条的图片新闻

工具

from urllib.parse import urlencode
import requests

网页

  • 进入今日头条,搜索图片新闻
  • 往下进行网页刷新的时候,按f12选择xhr进行筛选可以看到ajax传值
  • 此处用urlencode来进行url编码
  • 其实没怎么进行数据处理,只是学习一下爬取的内容

要注意的地方

  • 请求头要全,出了表明是ajax之外其他的也需要,不然爬不到数据
  • 最后一个参数timestamp是时间戳,自己随便弄一个就行
  • 爬取的数量通过offset来定义,这个我改成固定的参数了

代码

from urllib.parse import urlencode
import requests
base_url = 'https://www.toutiao.com/api/search/content/?'
headers = {
    'accept': 'application/json, text/javascript',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'content-type': 'application/x-www-form-urlencoded',
    'cookie': 'tt_webid=6786617025860912652; utm_source=huawei_llq_api; tt_webid=67866170258609126
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取网易新闻的评论,你需要使用网易新闻评论的接口。接口的 URL 一般以 `http://comment.news.163.com/api/v1/products/...` 开头,后面的部分取决于你要爬取新闻。下面是一个示例接口 URL: ``` http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/CRHJLQ1H000189FH/comments/newList?limit=30&offset=0&ibc=newspc&callback=getData ``` 其中,`a2869674571f77b5a0867c3d71db5856` 是网易新闻的产品 ID,`CRHJLQ1H000189FH` 是新闻的 ID,`limit` 是每页评论数量,`offset` 是评论偏移量,`callback` 是回调函数名(一般不需要修改)。 你可以使用 Python 中的 requests 库来获取这个接口的内容,然后使用 json 库解析返回的 JSON 数据。下面是一个示例代码: ```python import requests import json url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/CRHJLQ1H000189FH/comments/newList?limit=30&offset=0&ibc=newspc&callback=getData' response = requests.get(url) text = response.text.lstrip('getData(').rstrip(');') data = json.loads(text) for comment in data['comments']: content = comment['content'] print(content) ``` 这个示例代码会获取新闻 ID 为 `CRHJLQ1H000189FH` 的新闻的前 30 条评论,并输出每条评论的内容。你可以根据自己的需要修改和扩展这个代码。需要注意的是,爬虫行为可能会违反网站的使用协议,因此在使用爬虫时应该遵守相关规定,避免对网站造成不必要的负担。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值