python 爬虫原理与数据抓取

最新推荐文章于 2024-01-25 05:14:25 发布

信息化未来

最新推荐文章于 2024-01-25 05:14:25 发布

阅读量299

点赞数 1

分类专栏： 0doo13

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fqfq123456/article/details/108429776

版权

0doo13 专栏收录该内容

170 篇文章 26 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫的基本原理，包括理解网页的URL、HTML结构和HTTP/HTTPS协议。阐述了爬虫的设计思路，从确定URL、发送HTTP请求到解析HTML并保存数据。讨论了动态页面的抓取方法，如Selenium+PhantomJS，以及Scrapy和Scrapy-redis在分布式爬虫中的应用。此外，还提到了Python的urllib2库及其缺陷，以及如何处理HTTP请求、自定义opener和处理cookie的方法。

摘要由CSDN通过智能技术生成

爬虫相关概念

what is？

爬虫：抓去网页数据的程序。

How to catch?

网页三大特征？

1.URL

2.HTML

3.HTTP/HTTPS

爬虫的设计思路？

1.确定需要爬去的网页的URL地址

2.通过HTTP协议来获取对应的HTML页面

3.提取HTML里有用的数据

if 有用：

save

else:

重复步骤2

如何抓取HTML页面：

HTTP请求的处理，urllib,urllib2,requests

处理后的请求可以模拟浏览器发送请求，获取服务器响应的文件

解析服务器相应内容：

re,xpath,beautifulSoup4,jsonPath,pyquery等

正则，等匹配规则

如何采集动态HTML，验证码的处理：

通用的动态页面采集：Selenium+PhantomJS(自动化测试工具+无界面浏览器，可以模拟真实浏览器)

Scrapy框架Pyspider

分布式策略：

Scrapy-redis,以redis数据库为核心的组件，让scrapy支持分布式，请求指纹去重，请求分配

了解本专栏

超级会员免费看

信息化未来

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python 爬虫原理与数据抓取

爬虫相关概念what is？爬虫：抓去网页数据的程序。How to catch?网页三大特征？1.URL2.HTML3.HTTP/HTTPS爬虫的设计思路？1.确定需要爬去的网页的URL地址2.通过HTTP协议来获取对应的HTML页面3.提取HTML里有用的数据if 有用：saveelse:重复步骤2如何抓取HTML页面：HTTP请求的处理，urllib,urllib2,requests处理后的请求可以模拟浏览器发送请求，获取服务器响应
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

信息化未来 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。