python爬虫入门学习案例（亲测实用）

最新推荐文章于 2024-08-24 00:15:00 发布

请叫我小吴

最新推荐文章于 2024-08-24 00:15:00 发布

阅读量814

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/haoxuexiaolang/article/details/105356322

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Python爬虫（web spider），即爬取网站，获取网页数据并进行分析提取。

一、爬虫的基本流程

1.发起请求
通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

2.获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

3.解析内容
得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

4.保存数据
保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

——————————————————————————————————————————————

二、爬虫两种基本方法

（1）批量下载html文档，然后对HTML进行解析（即：标签内容解析），用的模块主要是：request、bs64

（2）对html源代码中的数据进行正则匹配提取数据：用的模块主要是：request、urllib 、re

——————————————————————————————————————————————

三、案例

案例入门1：https://blog.csdn.net/zeal9s/article/details/84031129（5分钟）

说明：该案例是用的python3.x版本，python2.x版本的童鞋可能会出现如下问题：

问题1： ImportError: No module named request的问题
解决方案：https://blog.csdn.net/haoxuexiaolang/article/details/105356268
问题2：SyntaxError: Non-ASCII character '\xe5' in file
解决方案：由于注释或输出语句中存在中文或者不规范空行导致中文编码原因，所以这里建议把代码中到的全部中文注释删除，把print输出语句中的中文改为英文，再次运行即可。

案例入门2：https://blog.csdn.net/peishuai1987/article/details/100572006（5分钟）
视频讲解：https://www.bilibili.com/video/BV1k4411y7pB?from=search&seid=7643928425836418077

说明：
1.该案例是用的python3.6+的版本，因为f-string是格式化字符串的一种很好的新方法：https://www.jb51.net/article/181854.htm
2.爬虫准备：https://www.cnblogs.com/bwjblogs/p/11857272.html
3.项目配置：https://jingyan.baidu.com/article/2f9b480de92e4a41cb6cc229.html（Pycharm如何给项目配置python解释器）

问题1: 中文乱码影响程序执行
解决方案：代码顶部添加 # -*- encoding:utf-8 -*-，防止中文乱码影响程序执行
问题2：url = f"http://www.crazyant.net/page/{idx+1}" 解析不成功
解决方案：https://blog.csdn.net/weixin_43560272/article/details/100801456 （字符串和变量拼接的写法）

#最后说一句#：编写实属不易，我分享我快乐，若喜欢或者对你有帮助记得点赞、关注、打赏或者收藏哦~