爬虫系列(三)--爬取指定区域数据

本教程介绍如何利用爬虫抓取指定URL的新闻标题和正文。通过分析页面结构,利用XPath在HTML中定位内容,借助lxml库简化实现。文章提供了详细步骤和注意事项。
摘要由CSDN通过智能技术生成

爬虫系列(三)--爬取指定区域数据

本篇文章要实现给定若干url,抓取某新闻网站文章的标题和正文。这个和上面一篇相比复杂了不少,需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。


1.页面结构

先在谷歌浏览器中打开要抓取的url,右键单击标题,选择检查。如下图:

 

可以看到标题和正文在下面的标签下

标题:<h1 class="main-title">一条谣言打趴科技股 从芯片5G到国产软件集体闪崩</h1>

正文:<div class="article" id="article">...</div>

解析xml就可以获取里面的内容。解析方法很多:

(1)直接对xml文本操作,找到这两个标签,提取内容。

(2)写一个算法,解析成树,然后查找需要的内容。

(3)使用别人写好的库,解析这个页面

这里选择(3),比较方便。(1)实现起来很

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值