5分钟学会爬虫,从此不求人

相信大家在日常工作中,都会有一些爬虫需求。比如:

  • 爬取某个知乎大牛的全部文章和评论数据,用来学习
  • 批量爬取某个媒体网站的文章标题和数据,用于分析
  • 批量下载某个网站的图片/文件等等,保存资源
  • ...

非技术出身的同学,一般这种时候只能求助,免不了请客吃饭、跪求帮忙...

其实有个简单的小工具,可以帮我们快速爬取想要的东西,5分钟即可快速入门。不信?不妨跟着教程试试。

一、下载安装Web Scraper

Web Scraper是个Chrome插件,需要先安装Google Chrome浏览器。

方法1:如果可以科学上网的话,建议直接在Chrome插件商店里下载。具体先进入Chrome插件页面(“chrome://extensions/”),然后打开插件商店,搜索Web Scraper下载安装

方法2:如果不能科学上网,可以先下载安装包,手动安装。

从链接: https://pan.baidu.com/s/1eTn8up8 密码: jpqy下载webscraper安装包(感谢资源提供者)。

下载好以后,将此安装包,拖到chrome://extensions/页面,按照提示安装即可。

二、界面功能介绍

1.启动:在Chrome里按下F12,可以唤起控制台,找到Web Scraper Tab即可进入工作区(如果你的控制台是贴着浏览器右边,那么你需要选择在底部展示)

2.导航条:Web Scraper的导航条里有三个Tab。

  • Sitemaps里汇集了全部曾经创建过的爬虫任务
  • Sitemap,是针对你当前选择的任务,进行一些操作,如果你没有选择任务,这个按钮不能点击
  • 点击Create即可创建一个新的爬虫任务

3.配置爬虫任务:点击某个创建好的任务,即可进入任务配置页面

  • 顶部蓝色字体显示当前所处路径
  • 表格里的内容,是你配置好的具体爬虫动作(比如获取某个元素文本、点击某个按钮等等),你也可以预览这个动作的信息,再次编辑或删除这个动作
  • 左下角可以点击创建新的动作

4.动作设置:

  • Id是个可以自定义的名称标识
  • 可以设置的动作有多种,比如获取文本、图片、链接、模拟点击、模拟滑动等等,在Type字段里可以看到全部
  • 点击Selector里的Select,可以把鼠标变成选择器,在页面上随意点选你想采集的信息。你也可以借此看到网页里,各个元素的层次关系,复杂结构。

  • 如果你选择了点击动作(如Element Click),界面上会出现Click相关的选择器,正常填写即可。Click Type可以选择单次点击,或者是不断点击,直至不出现新内容。Click Element Uniqueness 可以指定点击元素的唯一性,比如是文本唯一还是HTML元素唯一。不理解的话,可以采用默认值
  • Multiple是指选择单个元素,还是页面上的全部同类元素。注意如果要选择多个元素的话,在界面上也要点击多个元素,让你想选择的元素颜色都变一致。比如这样:

  • Discard initial elements:是否丢弃初始元素,这个主要是去除一些网站的重复数据用的,不是很重要,我们这里也用不到,直接选择 Never discard,从不丢弃数据。
  • Delay可以设定采集延迟,避免被识别为爬虫,然后封禁
  • Parent Selectors:允许设置选择器对应的上级节点。层级关系主要用于循环处理。

5.任务操作:

  • Selectors:回到任务下的动作列表
  • Selector graph:查看本任务下各个动作的关系图
  • Edit metadata:编辑爬虫任务的基本信息,比如名称和网址
  • Scarpe:开始执行爬虫
  • Browse:浏览爬虫的结果
  • Export Sitemap:导出这个爬虫任务(json格式),方便导入到别的工具或语言里
  • Export data as CSV:导出数据

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

 最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值