爬虫爬取链接中文字_零编程爬虫实用工具——WebScraper入门

98085c4d9a80a29deb323147e887febf.png

获取插件及示例的sitemap,请关注公众号:Ray的数据分析自习室(ID:Rays_DAclass),后台回复 [ webscraper ]。

0 Web Scraper简介

什么是 Web Scraper

Web Scraper是一款Chrome插件,可以以零编程的方式方便快捷地抓取网页上的内容:文字、链接、图片、表格等内容。

Web Scraper特点

优势

  1. Chrome插件,安装方便;
  2. 在浏览器内运行,简略了模拟登陆、反爬虫等麻烦事;
  3. 零编程,操作简单,适合临时爬虫

劣势

相对于python等爬虫,抓取速度慢,占用高。

1 快速开始

以爬取豆瓣电影排行榜(https://movie.douban.com/chart) 为例介绍Web Scrapxer的使用方法。

  1. 安装Web Scrapxer:与chrome插件安装方法相同
  • Chrome扩展商店
  • crx文件拖放至chrome://extensions/
    链接: https://pan.baidu.com/s/1PcMfeoS9XFxN3lgyN-LYuA
    提取码: tqin

2. 启动插件,根据提示使用快捷键打开插件* 实际是在开发者工具中添加了一个tab(开发者工具的位置必须设置在底部才会显示)

127045411e9c6957241b13f89d3d024a.png

d181318b5616aae37bb9535981dcb719.png

3. 创建爬取任务

  • 点击Create New Sitemap——Create Sitemap
  • 输入Sitemap name:爬取任务名称
  • 输入start url:爬取的初始页面,这里为https://movie.douban.com/chart
  • 点击create sitemap完成创建

f1815c5244153719f00ca8f8f60ab531.png

4. 创建选择器

  • 创建sitemap后进入选择器创建界面,点击Add Selector
    • Selector:选择器,一个选择器对应网页上的一部分区域,也就是包含我们要收集的数据的部分
    • 一个 sitemap 下可以有多个 selector,每个 selector 有可以包含子 selector ,一个 selector 可以只对应一个标题,也可以对应一整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息。

ec5ea199303a028af9fc2ab6ab62a6bd.png
  • selector设置,参数设置完成后点击save selector
    • id为selector名称,自行设定(小写英文)
    • 爬取排行榜中的电影名称,因此type选text
    • selector:点击select,依次点击前两部电影的标题,可以看到后续全部标题已被自动选中,点击Done Selecting结束选择
    • 采集多条数据时勾选multiple
    • Regex为正交表达式设置,用于对选取文本的过滤,此处不设置
    • Delay (ms)为每次爬取之间的延迟时间

50cb8ffa9ba4b6e279be5c3fbf9b6729.png

5. 爬取数据

  • 点击sitemap douban——Scrape

c0f5a0446d426e4d5a6c7808599a25c7.png
  • 分别设置请求延时(避免过于频繁被封)与页面载入延时(避免网页载入不全)后点击Start Scraping,弹出新页面开始爬取

86fd479a9561e4f04d3974d8cc4acde4.png
  • 爬取结束后弹窗自动关闭,点击refresh按钮,即可看到爬取的数据

b514161c077d3396a0b16994290f97d2.png

27c632b3f35de706da4f7b6529ba0b41.png

6. 数据导出:点击sitemap douban——Export Data to CSV

4d79963bfe6d5a38aee9319e745b0e0d.png

获取插件及示例的sitemap,请关注公众号:Ray的数据分析自习室(ID:Rays_DAclass),后台回复 [ webscraper ]。

想看更多?

互联网数据分析​zhuanlan.zhihu.com
69c8aca3ae952238720b248f324341ca.png
RAYW:[requests,pyquery]爬取猎聘网职位信息​zhuanlan.zhihu.com
86994637d4b780c48f70f03f60ce31dc.png
RAYW:《利用Python进行数据分析》:Chap5 Pandas入门​zhuanlan.zhihu.com
e21f74e1c6a2eb964801562156e5b070.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值