学了那么久的Python,为啥还是不会爬虫一点经验分享_为啥我按照《python从入门到精通》中教的方法爬虫不能成功-CSDN博客

本文链接：https://blog.csdn.net/m0_60635321/article/details/137984962

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

根据多数人的反馈和吐槽来看，主要有以下几个方面的问题：

1.信息不对称

提起Python爬虫，很多人都认为要先把Python学到熟练，再开始尝试利用编程技能实现爬虫。于是很多人看完两边语法，并没有太大感觉，既不能独立编程，也爬不了数据。

也有人认为HTML、CSS、Javascript前端三剑客+HTTP套餐必须先过一遍，才能在爬虫的学习过程中游刃有余。这一套下来，少则几个月，多则直接放弃。

所以这些惨案的发生，都归结于一个原因，前置学习时间太长，而这些都是信息不对称造成的。

2.编程的鸿沟

一个毫无编程经历的人，要想习得编程的技能，必然是要经过一番痛苦和思维的转变。毕竟，人的思考方式，与计算机的计算机制，还是有很大程度的不同。

人的思维有逻辑且具有强大的自适应性，而计算机需要依靠一套完整的规则，以及基于这些规则的命令。我们需要做的是，将自己的想法用这些规则表示出来，让计算机实现。

所以零基础学习Python，也会遇到这些问题，很多语法不能理解，理解了不能应用，这些都很常见。

还有就是，编程要学到什么程度，什么时候开始实践，也是初学者无法把控的地方。以至于很多人数据类型、函数、语句学了很多，还没有真正写过可用的程序。

3.问题的解决

爬虫是一种交叉的技术，包含了网络、编程、前端等多个维度的知识点，很多时候出现问题，没有经验根本解决不了，甚至很多人无法清楚地描述具体问题。

而对于编程和爬虫，不同的编译环境、网页千差万别，很多时候很难找到精准的问题解决方案，这个尤为令人苦恼。

所以在遇到各种错误且没有进展的时候，你会发现一切都是山重水复，但解决问题后必然是柳暗花明、信心爆棚。

关于爬虫，学习建议

那爬虫是不是不适合零基础学习，入门周期必漫长痛苦？其实不是。

找到正确的路径，有针对性地掌握基础知识，有明确的输出目标，再加上合理的实践训练，入门也可以像学习Office一样，水到渠成。

这些可以足够让你去上手爬取主流的网页，但并不是说一开始就需要去完全掌握，学习是循序渐进的过程，但有一些踩坑的经验分享。在这里小编给大家推荐一本《 Python爬虫开发与项目实战》。

本书从基本的爬虫原理开始讲解，通过介绍Pthyon编程语言和Web前端基础知识引领读者入门，之后介绍动态爬虫原理以及Scrapy爬虫框架，最后介绍大规模数据下分布式爬虫的设计以及PySpider爬虫框架等。

主要特点：

l 由浅入深，从Python和Web前端基础开始讲起，逐步加深难度，层层递进。

l 内容详实，从静态网站到动态网站，从单机爬虫到分布式爬虫，既包含基础知识点，又讲解了关键问题和难点分析，方便读者完成进阶。

l 实用性强，本书共有9个爬虫项目，以系统的实战项目为驱动，由浅及深地讲解爬虫开发中所需的知识和技能。

难点详析，对js加密的分析、反爬虫措施的突破、去重方案的设计、分布式爬虫的开发进行了细致的讲解。

接下来看下本书目录：

在这里插入图片描述

朋友们如果有需要全套《 Python爬虫开发与项目实战》PDF，扫描下方二维码免费领取（如遇扫码问题，评论区留言领取哦）~

第1章　回顾Python编程

1.1　安装Python 2
1.1.1　Windows上安装Python 2
1.1.2　Ubuntu上的Python 3
1.2　搭建开发环境 4
1.2.1　Eclipse+PyDev 4
1.2.2　PyCharm 10
1.3　IO编程 11
1.3.1　文件读写 11
1.3.2　操作文件和目录 14
1.3.3　序列化操作 15
1.4　进程和线程 16
1.4.1　多进程 16
1.4.2　多线程 22
1.4.3　协程 25
1.4.4　分布式进程 27
1.5　网络编程 32
1.5.1　TCP编程 33
1.5.2　UDP编程 35
1.6　小结 36
在这里插入图片描述

第2章　Web前端基础

2.1　W3C标准 37
2.1.1　HTML 37
2.1.2　CSS 47
2.1.3　JavaScript 51
2.1.4　XPath 56
2.1.5　JSON 61
2.2　HTTP标准 61
2.2.1　HTTP请求过程 62
2.2.2　HTTP状态码含义 62
2.2.3　HTTP头部信息 63
2.2.4　Cookie状态管理 66
2.2.5　HTTP请求方式 66
2.3　小结 68
在这里插入图片描述

第3章　初识网络爬虫

3.1　网络爬虫概述 69
3.1.1　网络爬虫及其应用 69
3.1.2　网络爬虫结构 71
3.2　HTTP请求的Python实现 72
3.2.1　urllib2/urllib实现 72
3.2.2　httplib/urllib实现 76
3.2.3　更人性化的Requests 77
3.3　小结 82
在这里插入图片描述

第4章　HTML解析大法

4.1　初识Firebug 83
4.1.1　安装Firebug 84
4.1.2　强大的功能 84
4.2　正则表达式 95
4.2.1　基本语法与使用 96
4.2.2　Python与正则 102
4.3　强大的BeautifulSoup 108
4.3.1　安装BeautifulSoup 108
4.3.2　BeautifulSoup的使用 109
4.3.3　lxml的XPath解析 124
4.4　小结 126
在这里插入图片描述

第5章　数据存储（无数据库版）

5.1　HTML正文抽取 127
5.1.1　存储为JSON 127
5.1.2　存储为CSV 132
5.2　多媒体文件抽取 136
5.3　Email提醒 137
5.4　小结 138
在这里插入图片描述

第6章　实战项目：基础爬虫

6.1　基础爬虫架构及运行流程 140
6.2　URL管理器 141
6.3　HTML下载器 142
6.4　HTML解析器 143
6.5　数据存储器 145
6.6　爬虫调度器 146
6.7　小结 147
在这里插入图片描述

第7章　实战项目：简单分布式爬虫 148

7.1　简单分布式爬虫结构 148
7.2　控制节点 149
7.2.1　URL管理器 149
7.2.2　数据存储器 151
7.2.3　控制调度器 153
7.3　爬虫节点 155
7.3.1　HTML下载器 155
7.3.2　HTML解析器 156
7.3.3　爬虫调度器 157
7.4　小结 159
在这里插入图片描述

中级篇

第8章　数据存储（数据库版）

8.1　SQLite 162
8.1.1　安装SQLite 162
8.1.2　SQL语法 163
8.1.3　SQLite增删改查 168
8.1.4　SQLite事务 170
8.1.5　Python操作SQLite 171
8.2　MySQL 174
8.2.1　安装MySQL 174
8.2.2　MySQL基础 177
8.2.3　Python操作MySQL 181
8.3　更适合爬虫的MongoDB 183
8.3.1　安装MongoDB 184
8.3.2　MongoDB基础 187
8.3.3　Python操作MongoDB 194
8.4　小结 196
在这里插入图片描述

第9章　动态网站抓取

9.1　Ajax和动态HTML 197
9.2　动态爬虫1：爬取影评信息 198
9.3　PhantomJS 207
9.3.1　安装PhantomJS 207
9.3.2　快速入门 208
9.3.3　屏幕捕获 211
9.3.4　网络监控 213
9.3.5　页面自动化 214
9.3.6　常用模块和方法 215
9.4　Selenium 218
9.4.1　安装Selenium 219
9.4.2　快速入门 220
9.4.3　元素选取 221
9.4.4　页面操作 222
9.4.5　等待 225
9.5　动态爬虫2：爬取去哪网 227
9.6　小结 230
在这里插入图片描述

第10章　Web端协议分析 231

10.1　网页登录POST分析 231
10.1.1　隐藏表单分析 231
10.1.2　加密数据分析 234
10.2　验证码问题 246
10.2.1　IP代理 246
10.2.2　Cookie登录 249
10.2.3　传统验证码识别 250
10.2.4　人工打码 251
10.2.5　滑动验证码 252
10.3　www]m]wap 252
10.4　小结 254

第11章　终端协议分析

11.1　PC客户端抓包分析 255
11.1.1　HTTP Analyzer简介 255
11.1.2　虾米音乐PC端API实战分析 257
11.2　App抓包分析 259
11.2.1　Wireshark简介 259
11.2.2　酷我听书App端API实战分析 266
11.3　API爬虫：爬取mp3资源信息 268
11.4　小结 272

第12章　初窥Scrapy爬虫框架

12.1　Scrapy爬虫架构 273
12.2　安装Scrapy 275
12.3　创建cnblogs项目 276
12.4　创建爬虫模块 277
12.5　选择器 278
12.5.1　Selector的用法 278
12.5.2　HTML解析实现 280
12.6　命令行工具 282
12.7　定义Item 284
12.8　翻页功能 286
12.9　构建Item Pipeline 287
12.9.1　定制Item Pipeline 287
12.9.2　激活Item Pipeline 288
12.10　内置数据存储 288
12.11　内置图片和文件下载方式 289
12.12　启动爬虫 294
12.13　强化爬虫 297
12.13.1　调试方法 297
12.13.2　异常 299
12.13.3　控制运行状态 300
12.14　小结 301