精通Python网络爬虫_核心技术框架与项目实战_韦玮
编辑推荐
从技术、工具、实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧
内容简介
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。
目录案例
版权信息
前言
第一篇 理论基础篇
第1章 什么是网络爬虫
1.1 初识网络爬虫
1.2 为什么要学网络爬虫
1.3 网络爬虫的组成
1.4 网络爬虫的类型
1.5 爬虫扩展——聚焦爬虫
1.6 小结
第2章 网络爬虫技能总览
2.1 网络爬虫技能总览图
2.2 搜索引擎核心
2.3 用户爬虫的那些事儿
2.4 小结
第二篇 核心技术篇
第3章 网络爬虫实现原理与实现技术
3.1 网络爬虫实现原理详解
3.2 爬行策略
3.3 网页更新策略
3.4 网页分析算法
3.5 身份识别
3.6 网络爬虫实现技术
3.7 实例——metaseeker
3.8 小结
第4章 Urllib库与URLError异常处理