python爬虫爬取今日头条_爬取今日头条头条号文章数据

0,背景介绍

最近想爬取一些今日头条的文章浏览数据,分析哪些头条号做的好,那些做的不好。

f057794a19ac

今日头条

比如上图的阅读数,评论数以及文章标题,通过这些数据进行分析。

于是展开了艰难的爬虫探索之旅

第一目标是爬取某个或某几个头条号的历史浏览数据。

直接列出取得的结果吧

1,获得url

这一步非常关键,特意去请教了爬虫大神,得出要用Charles或其他的工具来获得数据存放的位置,注意,头条号的文章列表数据无法在HTML中直接定位到。

只要将“3400026401”一串数字,替换成每个账号的域名的数字,就可以爬取每个账号的内容了。

这种笨办法只能一个个爬取,因为时间和基础有限,计划先把这条路走通了再说。

还有一点就是,今日头条有反爬虫机制,如果通过机器批量下载存在风险,如何避过反爬虫机制又要花大量时间

2,复制json

将上述网址复制到浏览器中,既可以得到一大段json,长成这样,第一次见json

f057794a19ac

json

用这个bejson工具,将原格式的json翻译一下,bejson

翻译之后就可以看到中文了,终于有点人类语言的样子了

3,用R解析json

首先要安装rjson包&#

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值