四年前的文章了,现在才看见没通过。。。。当初明明过了的。。。
1.前些天打开网易新闻,于是点开爬取该新闻的评论。
2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不一样,根本没有自己想要的评论内容。然后通过搜索学习,知道了获取数据的办法。主要是html中的JavaScript和Python中json模块。
具体步骤如下:
1.输入网址,用谷歌浏览器获取json数据
输入网址后,按F12,出现该界面
2.查找所需要的数据
观察加载的这些内容可以发现,有图片,有html文件等。一开始并不知道评论内容存在哪里,搜索html依次查看
点击Preview进行查看,发现红框里的内容才是需要的数据
3.点击headers获取url
这个url只有一个,加载的是“热门跟帖”的内容,而加载“最新跟帖”的到现在有17个
打开一个网址,是以json数据进行显示的
这里附了张图,应该不合法。。。。
其他的页面的显示形式也是相同的。
4.写代码爬取数据,一开始只对一页内容进行爬取
一开始从来没有接