Python网络爬虫
文章平均质量分 93
PzLu
Email: panzhong171@outlook.com
博客会偶尔更一下,比较忙。会抽时间整理。
展开
-
《精通Python网络爬虫》理论基础篇1-2
第1章 什么是网络爬虫1.1 为何学习网络爬虫(1)定制一个个性化的搜索引擎(2)数据分析(3)优化搜索引擎(4)工作生计(5)兴趣爱好1.2 网络爬虫的组成网络爬虫由控制节点、爬虫节点、资源库构成。控制节点:爬虫的中央控制器,根据 URL 地址分配线程,调用爬虫节点具体爬行。爬虫节点:应用相关算法,对网页进行具体爬行。资源库:将爬虫节点爬行结果存储到对应的资源库中。1.3 网络爬虫类型 爬虫类原创 2018-05-02 08:09:19 · 573 阅读 · 0 评论 -
《精通Python网络爬虫》核心技术篇3
第3章 网络爬虫实现原理与实现技术3.1 实现原理 这里主要讲通用网络爬虫和聚焦网络爬虫。 具体操作见图示。1. 通用网络爬虫 2. 聚焦网络爬虫 聚焦网络爬虫,是有目的的进行爬取。 必须增加目标的定义和过滤机制。 其执行原理和过程需要比通用网络爬虫多出三步,即目标的定义、过滤无关链接、下一步要爬取的 URL 地址的选取等。3.2 爬行策略 爬行策略 具体说明原创 2018-05-02 09:49:48 · 767 阅读 · 0 评论 -
《精通Python网络爬虫》核心技术篇4
第4章 Urllib与URLError异常处理Urllib库快速使用 Urllib 爬取网页浏览器的模拟——Headers 属性超时设置HTTP 协议请求实战代理服务器的设置DebugLog 实战异常处理神器——URLError实战Urllib库Urllib 是 Python 提供的一个用于操作 URL 的模块。 我们爬取网页时会经常用到这个库。 下...原创 2018-05-04 02:52:24 · 1052 阅读 · 0 评论 -
《精通Python网络爬虫》核心技术篇5(1)
第 5 章 正则表达式与 Cookie 的使用前言:有时我们在进行字符串处理的时候,希望按自定义的规则进行处理,我们将这些规则称为模式。我们可以用正则表达式来描述这些自定义规则,正则表达式也称为模式表达式。什么是正则表达式正则表达式基础知识正则表达式常见函数常见实例解析什么是 CookieCookiejar 实战精析5.1 什么是正则表达式# 正则表达式就是描述字符串排列的一套规则。# 利用正则表...原创 2018-05-05 17:11:37 · 635 阅读 · 0 评论 -
《精通Python网络爬虫》核心技术篇5(2)
什么是 CookieCookiejar 实战精析什么是Cookie在爬虫的使用中,如果涉及登陆等操作,经常会使用到 Cookie。 什么是 Cookie? 1.其实我们每访问一个互联网页面,都是通过 HTTP 协议进行的,而 HTTP 协议是一个无状态协议,即无法维持会话之间的状态。 2.如果我们仅使用 HTTP 协议的话,我们登陆一个网站之后,如...原创 2018-05-08 18:53:05 · 763 阅读 · 0 评论