0,背景介绍
最近想爬取一些今日头条的文章浏览数据,分析哪些头条号做的好,那些做的不好。
今日头条
比如上图的阅读数,评论数以及文章标题,通过这些数据进行分析。
于是展开了艰难的爬虫探索之旅
第一目标是爬取某个或某几个头条号的历史浏览数据。
直接列出取得的结果吧
1,获得url
这一步非常关键,特意去请教了爬虫大神,得出要用Charles或其他的工具来获得数据存放的位置,注意,头条号的文章列表数据无法在HTML中直接定位到。
只要将“3400026401”一串数字,替换成每个账号的域名的数字,就可以爬取每个账号的内容了。
这种笨办法只能一个个爬取,因为时间和基础有限,计划先把这条路走通了再说。
还有一点就是,今日头条有反爬虫机制,如果通过机器批量下载存在风险,如何避过反爬虫机制又要花大量时间
2,复制json
将上述网址复制到浏览器中,既可以得到一大段json,长成这样,第一次见json
json
用这个bejson工具,将原格式的json翻译一下,bejson
翻译之后就可以看到中文了,终于有点人类语言的样子了
3,用R解析json
首先要安装rjson包&#