网络爬虫
文章平均质量分 93
shirley1222
这个作者很懒,什么都没留下…
展开
-
网络爬虫的基本知识(2)-- 爬虫的基本原理、Session与Cookies
网络爬虫的基本知识3 爬虫的基本原理1 爬虫可以做什么?2 爬虫是怎么工作的?3 爬虫去哪里获取数据?4 爬虫技术的类型4.1 聚焦爬虫技术4.2 通用爬虫技术4.3 增量爬虫技术4.4 深层网络爬虫技术5 爬虫抓取策略5.1 深度优先遍历策略5.2 广度优先遍历策略5.3 Partial PageRank策略5.4 大站优先策略5.5 反向链接数策略5.6 OPIC策略6 反爬虫和反反爬虫6.1 反爬虫6.1.1 通过User-Agent来控制访问6.1.2 登录6.1.3 使用代理6.1.4 降低访问频原创 2021-07-25 11:18:01 · 349 阅读 · 0 评论 -
网络爬虫的基本知识(1)-- HTTP基本原理和web网页基础
在学习Python之前,我是学习SEO的,SEO就是搜索引擎优化,要做的工作呢,就是要了解搜索引擎背后的爬虫,了解爬虫的算法。 在接触了Python之后,我决定自己去学习一下爬虫的写法,做一只属于自己的“蜘蛛”。 1 爬虫可以做什么? 爬虫最基础的工作就是抓取网页。 比如我们打开百度的首页: 百度的首页就相当于是一个爬虫入口。在这个入口中有非常多的URL,而这些URL又相当于是子入口。在这些子入口的后面又是更多的URL。 2 爬虫是怎么工作的? 1、先选出一部分网页 以百度为例,我们先在搜索框中输入想要了原创 2021-07-18 10:24:19 · 528 阅读 · 0 评论