如何入门 Python 爬虫？详细教程在这里

最新推荐文章于 2024-05-09 14:30:41 发布

进击的码农！

最新推荐文章于 2024-05-09 14:30:41 发布

阅读量60

点赞数

分类专栏： python 程序员 Python入门文章标签： python Python入门 Python爬虫开发语言 Python基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/libaiup/article/details/130502823

版权

python 同时被 3 个专栏收录

613 篇文章 32 订阅

订阅专栏

390 篇文章 2 订阅

订阅专栏

182 篇文章 2 订阅

订阅专栏

根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。

基础

爬虫的定义：定向抓取互联网内容（大部分为网页）、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理，为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。
在这里插入图片描述

代码

第一步：写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先，构造一个http的header，里面有浏览器和操作系统等信息。如果没有这个伪造的header，可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后，用requests库的get方法获取url内容。如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok，说明页面不能正常访问，将函数返回值设置为特殊字符串或代码。
在这里插入图片描述
第二步：解析器

解析器的作用是对采集器返回的html代码进行过滤筛选，提取需要的内容。
作为一个14年忠实用户，当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数：排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下，每个页面包括25部电影，共计10个页面。
在这里插入图片描述
在这里，必须要表扬豆瓣的前端工程师们，html标签排版非常工整具有层次，非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码：（需要提取的8个参数用红线标注）在这里插入图片描述
根据上面的html编写解析器函数，提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re（正则表达式）提取内容。8个（.*?）分别对应需要提取的字段。
提取后的内容如下：

整理成完整的代码：（暂不考虑容错）
在这里插入图片描述
非常简洁，非常符合python简单、高效的特点。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、Python学习大纲

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、入门学习视频

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。在这里插入图片描述

五、python副业兼职与全职路线

在这里插入图片描述

在这里插入图片描述

👉[[CSDN大礼包：《python兼职资源&全套学习资料》免费分享]]（安全链接，放心点击）

进击的码农！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何入门 Python 爬虫？详细教程在这里

如果http响应代码是200 ok，说明页面访问正常，将该函数返回值设置为文本形式的html代码内容。我们计划爬取豆瓣排名TOP250电影的8个参数：排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。如果待爬取的url库不为空，采集器会自动爬取相关内容，并将结果给到解析器，解析器提取目标内容后进行写入文件或入库等操作。根据本人的习惯与理解，用最简洁的表述，介绍爬虫的定义、组成部分、爬取流程，并讲解示例代码。解析器的作用是对采集器返回的html代码进行过滤筛选，提取需要的内容。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。