爬虫爬取链接中文字_零编程爬虫实用工具——WebScraper入门

最新推荐文章于 2023-02-25 20:40:24 发布

带着神评走天下

最新推荐文章于 2023-02-25 20:40:24 发布

阅读量638

点赞数

文章标签：爬虫爬取链接中文字

本文链接：https://blog.csdn.net/weixin_28753691/article/details/112269995

版权

获取插件及示例的sitemap，请关注公众号：Ray的数据分析自习室（ID：Rays_DAclass），后台回复 [ webscraper ]。

Web Scraper是一款Chrome插件，可以以零编程的方式方便快捷地抓取网页上的内容：文字、链接、图片、表格等内容。

相对于python等爬虫，抓取速度慢，占用高。

以爬取豆瓣电影排行榜（https://movie.douban.com/chart）为例介绍Web Scrapxer的使用方法。

Chrome扩展商店
crx文件拖放至chrome://extensions/
链接: https://pan.baidu.com/s/1PcMfeoS9XFxN3lgyN-LYuA
提取码: tqin

2. 启动插件，根据提示使用快捷键打开插件* 实际是在开发者工具中添加了一个tab（开发者工具的位置必须设置在底部才会显示）

3. 创建爬取任务

4. 创建选择器

创建sitemap后进入选择器创建界面，点击Add Selector
- Selector：选择器，一个选择器对应网页上的一部分区域，也就是包含我们要收集的数据的部分
- 一个 sitemap 下可以有多个 selector，每个 selector 有可以包含子 selector ，一个 selector 可以只对应一个标题，也可以对应一整个区域，此区域可能包含标题、副标题、作者信息、内容等等信息。