爬虫学习二 - 提取下载的html的图片的链接地址

最新推荐文章于 2022-04-12 13:45:36 发布

Drgom

最新推荐文章于 2022-04-12 13:45:36 发布

阅读量278

点赞数

分类专栏：爬虫 python 文章标签： lxml HTML解析 img/@src 垃圾数据过滤 Python脚本

本文链接：https://blog.csdn.net/qq_43662627/article/details/113092010

版权

python 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

from lxml import etree
def range_file(page):
    parser = etree.HTMLParser(encoding="utf-8")
    key = str(page)+'.html'
    text = '尤果'+key
    html = etree.parse(text, parser=parser)

    result = html.xpath('//img/@src')
    file = open('信息.txt', 'a', encoding='utf-8')
    for i in range(len(result)):
      if len(result[i])>30:
       print(result[i])
       file.writelines(result[i]+'\n')
    file.close()
for i in range(10):
     range_file(i)