目前在学习爬虫的课程
以下小坐总结:
第一天主要看了以写爬虫的原理以及爬虫数据的抓取
一
1.1:为什么学习爬虫
最主要的是在目前看来,爬虫工程师属于紧缺型人才,并且薪资待遇普遍较高
1,学习爬虫,可以私人定制一个搜索引擎。
2,大数据时代,要进行数据分析,首先要有数据源
3,对于很多SEO从业者来说,从而可以更好的进行搜索引擎优化。
1.2爬虫的概念
什么是网络爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人)爬虫就是模拟客户端发送网络请求,
接受请求对应的响应,一种按照一定规则,自动抓取互联网信息的程序。
只要是客户端(主要指浏览器)能做的事情,原则上,爬虫都能够做。
换言之,只要人能能够正常访问的网页,爬虫在具备同等资源的情况下就一定能抓取到。
1.3 爬虫的用途
主要用途:数据采集
其他用途:各种抢购,12306抢票。投票刷票,短信轰炸,网络攻击,web漏洞扫描器
1.4 爬虫的分类
通用爬虫:通常指搜索引擎和大型服务提供商的爬虫
聚焦爬虫:针对特定网站的爬虫,定向的获取明发面数据的爬虫
累计式爬虫:从开始到结束,不断的爬取,过程中会进行去重操作。
增量式爬虫:已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页的爬虫
DEEP WEB爬虫: 不能通关过静态链接获取的,隐藏在搜索表单后的,只有用户提交一些
关键词才能获得的web页面(通常值:有些只能是会员,或者登陆之后的,普通爬虫只是冰山一角,深度就深到海底)。
1.5 爬虫的用途:
金融 <