静态网页爬虫教程（5）带翻页的多篇文章内容提取和保存

最新推荐文章于 2023-11-02 16:57:08 发布

ryo007gnnu

最新推荐文章于 2023-11-02 16:57:08 发布

阅读量1.9k

点赞数 2

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/ryo007gnnu/article/details/109023297

版权

爬虫专栏收录该内容

9 篇文章 6 订阅

订阅专栏

这是我们静态页面爬取的最后一篇了，主要针对的问题是翻页爬取。
先来观察一下翻页后的新页面地址是什么吧，我们可以看到，新页面的地址的设置很简单，就是改了个序号，第一页是1.shtml，第二页是2.shtml……最后一页就是18.shtml。
在这里插入图片描述
那就好办了，我们可以先用循环生成每页的地址，然后再按照前面的方法对每一页进行爬取就OK了。

url1=[]
for i in range(18):
    url1.append('http://greenfinance.xinhua08.com/qyhjxxpl/'+str(i+1)+'.shtml')
url1

在这里插入图片描述
下面的思路就比较简单了，先从列表中取出第一页的地址，然后爬取第一页所包含的所有页面并保存，接着再取出第二页的地址，如此炮制……
总的代码如下：

import os
os.chdir('d:\\')
import requests
import re
url1=[]
#生成18个页面的地址
for i in range(18):
    url1.append('http://greenfinance.xinhua08.com/qyhjxxpl/'+str(i+1)+'.shtml')
    #挨个从每一页里取出这一页所包含的地址和标题 
    for j in range(len(url1)):
        urlt=url1[j]
        req=requests.get(urlt)
        req.encoding=requests.utils.get_encodings_from_content(req.text)
        #text1=re.findall('<div id="ctrlfscont" class="article-content"><p>(.*?)</p></div>',req.text,re.S)
        ret=re.findall('<h4>(.*?)</h4>',req.text,re.S)
        reh=re.findall('<div class="newsinfo">.*?<a href="(.*?)">',req.text,re.S)
        #对这一页的每一个地址对应的内容进行提取和保存
        for k in range(len(reh)):
            urlt=reh[k]
            ret[k]=ret[k].replace('*','st')
            req=requests.get(urlt)
            req.encoding=requests.utils.get_encodings_from_content(req.text)
            text2=re.findall('<div id="ctrlfscont" class="article-content"><p>(.*?)</p></div>',req.text,re.S)
            text2=re.sub('<p>|</p>|&ldquo;|&rdquo;','',str(text2).replace('\\n',''))
            with open(ret[k]+'.txt','w') as f:
                f.write(text2)