前期条件:安装web scraper插件;
安装好之后,打开网页调试模式,F12 会看到多出来Web Scraper;
实践:
以豆瓣网为例:
爬取租房信息:
Type有很多类型:
这里选择是表格,需要看网页具体是什么来排列。
选择器,selector,这里需要自己多尝试几次,选好父节点,需要抓取界面的全部内容。
后面选择的节点都是在这个父节点之下的。
实例:抓取当前界面的所有标题信息。
确认之后,如下图所示。
设置完成后,该界面的内容已经选择完成了。
选择Datapreview,看抓取内容是否符合预期。
如果没有内容,大部分是选择选择器Selector和选择的类型Type问题,需要自己尝试一下。
备注:因为这里是表格,所以直接选择表格抓取,内容就全部抓取下来,其他需要选择元素,element,需要再选择子节点。
-------------------
如果要抓取所有界面的内容,需要创建Link关系,选择Next Page.
接着,是抓取第二页的内容 ,这里需要 进入到第2页,这里是一个链接 类型。
创建链接Link 类型。
选择具体内容,这里参照上面即可。
选择每条信息背后的正文内容。
完成Selector后,开始抓取数据,默认时间2000ms。
等待抓取:
抓取完,导出数据即可。
完成之后,可以看一下图谱链接关系。
Selector Graph
先模拟一下,人工操作,
1、选择1条租房信息,这里是一个链接,会跳转到另一个界面,这里是这条租房信息的详细信息。
2、租房信息有1,2,3,...页,需要Next Page;
爬虫操作,也是模拟人工操作,需要创建一样的逻辑;
对比这个小组第一页与最后一页:
www.douban.com/group/605557/discussion?start=0
第1页:
第2页:
第500页:
可以找到规律,每1页都是25条内容,但有的页面可能不是,最新的都是,太老的创建的人少,就每保留每页25条。
抓取内容时,可以关注一下链接的关系及规律。研究背后的逻辑。
参考内容:
不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜..._sushengbuhuo的博客-CSDN博客
Web Scraper 初级用法——Web Scraper 初尝--抓取豆瓣高分电影 | 简易数据分析 04_Bingo-CSDN博客
以上只是个人所用,如有侵权请联系,立删。