获取插件及示例的sitemap,请关注公众号:Ray的数据分析自习室(ID:Rays_DAclass),后台回复 [ webscraper ]。
0 Web Scraper简介
什么是 Web Scraper
Web Scraper是一款Chrome插件,可以以零编程的方式方便快捷地抓取网页上的内容:文字、链接、图片、表格等内容。
Web Scraper特点
优势
- Chrome插件,安装方便;
- 在浏览器内运行,简略了模拟登陆、反爬虫等麻烦事;
- 零编程,操作简单,适合临时爬虫
劣势
相对于python等爬虫,抓取速度慢,占用高。
1 快速开始
以爬取豆瓣电影排行榜(https://movie.douban.com/chart) 为例介绍Web Scrapxer的使用方法。
- 安装Web Scrapxer:与chrome插件安装方法相同
- Chrome扩展商店
- crx文件拖放至chrome://extensions/
链接: https://pan.baidu.com/s/1PcMfeoS9XFxN3lgyN-LYuA
提取码: tqin
2. 启动插件,根据提示使用快捷键打开插件* 实际是在开发者工具中添加了一个tab(开发者工具的位置必须设置在底部才会显示)
3. 创建爬取任务
- 点击Create New Sitemap——Create Sitemap
- 输入Sitemap name:爬取任务名称
- 输入start url:爬取的初始页面,这里为https://movie.douban.com/chart
- 点击create sitemap完成创建
4. 创建选择器
- 创建sitemap后进入选择器创建界面,点击Add Selector
- Selector:选择器,一个选择器对应网页上的一部分区域,也就是包含我们要收集的数据的部分
- 一个 sitemap 下可以有多个 selector,每个 selector 有可以包含子 selector ,一个 selector 可以只对应一个标题,也可以对应一整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息。
- selector设置,参数设置完成后点击save selector
- id为selector名称,自行设定(小写英文)
- 爬取排行榜中的电影名称,因此type选text
- selector:点击select,依次点击前两部电影的标题,可以看到后续全部标题已被自动选中,点击Done Selecting结束选择
- 采集多条数据时勾选multiple
- Regex为正交表达式设置,用于对选取文本的过滤,此处不设置
- Delay (ms)为每次爬取之间的延迟时间
5. 爬取数据
- 点击sitemap douban——Scrape
- 分别设置请求延时(避免过于频繁被封)与页面载入延时(避免网页载入不全)后点击Start Scraping,弹出新页面开始爬取
- 爬取结束后弹窗自动关闭,点击refresh按钮,即可看到爬取的数据
6. 数据导出:点击sitemap douban——Export Data to CSV
获取插件及示例的sitemap,请关注公众号:Ray的数据分析自习室(ID:Rays_DAclass),后台回复 [ webscraper ]。