相信大家在日常工作中,都会有一些爬虫需求。比如:
- 爬取某个知乎大牛的全部文章和评论数据,用来学习
- 批量爬取某个媒体网站的文章标题和数据,用于分析
- 批量下载某个网站的图片/文件等等,保存资源
- ...
非技术出身的同学,一般这种时候只能求助,免不了请客吃饭、跪求帮忙...
其实有个简单的小工具,可以帮我们快速爬取想要的东西,5分钟即可快速入门。不信?不妨跟着教程试试。
一、下载安装Web Scraper
Web Scraper是个Chrome插件,需要先安装Google Chrome浏览器。
方法1:如果可以科学上网的话,建议直接在Chrome插件商店里下载。具体先进入Chrome插件页面(“chrome://extensions/”),然后打开插件商店,搜索Web Scraper下载安装
方法2:如果不能科学上网,可以先下载安装包,手动安装。
从链接: https://pan.baidu.com/s/1eTn8up8 密码: jpqy下载webscraper安装包(感谢资源提供者)。
下载好以后,将此安装包,拖到chrome://extensions/页面,按照提示安装即可。
二、界面功能介绍
1.启动:在Chrome里按下F12,可以唤起控制台,找到Web Scraper Tab即可进入工作区(如果你的控制台是贴着浏览器右边,那么你需要选择在底部展示)
2.导航条:Web Scraper的导航条里有三个Tab。
- Sitemaps里汇集了全部曾经创建过的爬虫任务
- Sitemap,是针对你当前选择的任务,进行一些操作,如果你没有选择任务,这个按钮不能点击
- 点击Create即可创建一个新的爬虫任务
3.配置爬虫任务:点击某个创建好的任务,即可进入任务配置页面
- 顶部蓝色字体显示当前所处路径
- 表格里的内容,是你配置好的具体爬虫动作(比如获取某个元素文本、点击某个按钮等等),你也可以预览这个动作的信息,再次编辑或删除这个动作
- 左下角可以点击创建新的动作
4.动作设置:
- Id是个可以自定义的名称标识
- 可以设置的动作有多种,比如获取文本、图片、链接、模拟点击、模拟滑动等等,在Type字段里可以看到全部
- 点击Selector里的Select,可以把鼠标变成选择器,在页面上随意点选你想采集的信息。你也可以借此看到网页里,各个元素的层次关系,复杂结构。
- 如果你选择了点击动作(如Element Click),界面上会出现Click相关的选择器,正常填写即可。Click Type可以选择单次点击,或者是不断点击,直至不出现新内容。Click Element Uniqueness 可以指定点击元素的唯一性,比如是文本唯一还是HTML元素唯一。不理解的话,可以采用默认值
- Multiple是指选择单个元素,还是页面上的全部同类元素。注意如果要选择多个元素的话,在界面上也要点击多个元素,让你想选择的元素颜色都变一致。比如这样:
- Discard initial elements:是否丢弃初始元素,这个主要是去除一些网站的重复数据用的,不是很重要,我们这里也用不到,直接选择 Never discard,从不丢弃数据。
- Delay可以设定采集延迟,避免被识别为爬虫,然后封禁
- Parent Selectors:允许设置选择器对应的上级节点。层级关系主要用于循环处理。
5.任务操作:
- Selectors:回到任务下的动作列表
- Selector graph:查看本任务下各个动作的关系图
- Edit metadata:编辑爬虫任务的基本信息,比如名称和网址
- Scarpe:开始执行爬虫
- Browse:浏览爬虫的结果
- Export Sitemap:导出这个爬虫任务(json格式),方便导入到别的工具或语言里
- Export data as CSV:导出数据
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。