html简单静态网页实例_python爬虫系列简单静态网页爬取22

ccfacedae15a73714b5a4ddf6a5e1f55.png

点击上方蓝字关注我们

71c89c0d0ee3c551c45208db47dbd0f6.png

本片文章讲述使用迭代的方法来进行网页爬取

第一步:思路
  • 定义函数

  • 函数内调用函数

第二步:定义函数 使用def定义
def fun():    pass

其实和上一篇文章没有多少区别,不过只是把爬虫加到了函数中,爬虫主体的思路和之前一样。

代码:

import requestsfrom lxml import etree#定义函数def save_story(url):    #使用requests库获取网页    html = requests.get(url).content.decode('utf-8')    #etree格式化网页    html = etree.HTML(html)    #解析网页    tit = html.xpath('//*[@id="wrapper"]/div[4]/div/div[2]/h1/text()')    story = html.xpath('//*[@id="content"]/text()')    #使用with方法创建一个文件并写入数据    with open('text.txt','a+',encoding='utf-8',newline='') as f:        f.writelines(tit)        for i in story:            f.write(i)    #获取下一页的url    new_url = html.xpath('//*[@id="wrapper"]/div[4]/div/div[4]/a/@href')    tit_url = html.xpath('//*[@id="wrapper"]/div[4]/div/div[4]/a[3]/@href')    #判断函数是否继续调用    if tit_url[0] == new_url[-2]:        print(========ok==========)    else:        #调用函数再次爬取网页,解析,保存,调用函数        save_story(new_url[-2])save_story()  #填入起始url
注意的是,起始url是所想要爬取网页的第一页,当然,任意一页也可以,第一页能最大限度的爬取内容。 a53491343f59a6b1c54fcc69929a5b5e.png

点个在看,你最好看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值