爬虫系列(三)--爬取指定区域数据
本篇文章要实现给定若干url,抓取某新闻网站文章的标题和正文。这个和上面一篇相比复杂了不少,需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。
1.页面结构
先在谷歌浏览器中打开要抓取的url,右键单击标题,选择检查。如下图:
可以看到标题和正文在下面的标签下
标题:<h1 class="main-title">一条谣言打趴科技股 从芯片5G到国产软件集体闪崩</h1>
正文:<div class="article" id="article">...</div>
解析xml就可以获取里面的内容。解析方法很多:
(1)直接对xml文本操作,找到这两个标签,提取内容。
(2)写一个算法,解析成树,然后查找需要的内容。
(3)使用别人写好的库,解析这个页面
这里选择(3),比较方便。(1)实现起来很