爬虫系列（三）--爬取指定区域数据

最新推荐文章于 2025-05-25 22:48:29 发布

Moluth

最新推荐文章于 2025-05-25 22:48:29 发布

阅读量6.6k

点赞数

分类专栏：爬虫 Python 文章标签：爬虫爬虫入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Moluth/article/details/82530720

版权

本教程介绍如何利用爬虫抓取指定URL的新闻标题和正文。通过分析页面结构，利用XPath在HTML中定位内容，借助lxml库简化实现。文章提供了详细步骤和注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫系列（三）--爬取指定区域数据

本篇文章要实现给定若干url，抓取某新闻网站文章的标题和正文。这个和上面一篇相比复杂了不少，需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。

1.页面结构

先在谷歌浏览器中打开要抓取的url，右键单击标题，选择检查。如下图：

可以看到标题和正文在下面的标签下

标题：<h1 class="main-title">一条谣言打趴科技股从芯片5G到国产软件集体闪崩</h1>

正文：<div class="article" id="article">...</div>

解析xml就可以获取里面的内容。解析方法很多：

（1）直接对xml文本操作，找到这两个标签，提取内容。

（2）写一个算法，解析成树，然后查找需要的内容。

（3）使用别人写好的库，解析这个页面

这里选择（3），比较方便。（1）实现起来很

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。