Python 爬虫实战入门（下）

最新推荐文章于 2024-02-29 22:52:43 发布

码同学软件测试

最新推荐文章于 2024-02-29 22:52:43 发布

阅读量266

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Testfan_zhou/article/details/104972825

版权

本文介绍了如何使用Python的BeautifulSoup库解析HTML，定位并提取豆瓣电影Top250的电影信息。通过分析不同信息的CSS选择器，实现了爬虫程序，并将爬取的数据保存为CSV文件，以便后续查看和分析。

摘要由CSDN通过智能技术生成

上一篇，我们通过requests将豆瓣电影top250的网页内容都爬取下来了，但是爬取的是整个网页内容，我们需要对这些内容进行分析，只将我们需要的内容保存下来，不需要的就直接丢弃。

那在这呢，给大家介绍另外一个第三方库Beautiful Soup，这里是它的中文介绍：

https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

可以大概看一下它的介绍：Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

那在这呢，咱们大概分析一下我们怎么对页面进行分析截取。

1．BeautifulSoup是基于标签的，所以我们第一步要准确定位到我们需要信息所在的标签。

2 .从定位的标签中提取我们需要的信息（一般在属性或者在string中）

对于提取数据的简单处理

那我们照着上面的流程，对我们需要实现的程序进行分析

需要准确定位到我们需要信息的标签，在这里，如果能有UI自动化基础，那就会更好理解一些，我们将标题所在的css selector拷贝出来

#content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)

最低0.47元/天解锁文章

码同学软件测试

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫实战入门（下）

上一篇，我们通过requests将豆瓣电影top250的网页内容都爬取下来了，但是爬取的是整个网页内容，我们需要对这些内容进行分析，只将我们需要的内容保存下来，不需要的就直接丢弃。那在这呢，给大家介绍另外一个第三方库Beautiful Soup，这里是它的中文介绍：https://www.crummy.com/software/BeautifulSoup/bs3/documentation.z...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。