爬取网页列表内容对应的网址并存到txt里,根据txt里的路径下载对应网页里面的图片

该博客介绍了如何使用Python的requests和BeautifulSoup库从网页列表中抓取文章链接,并根据这些链接下载对应网页内的所有图片。首先,通过遍历网址列表并解析HTML,获取文章的链接并保存到txt文件。然后,读取txt文件中的链接,对每个链接进行请求,获取HTML内容,查找并下载所有img标签的图片资源,保存到本地的pictures文件夹,文件名包含链接的相关信息。
摘要由CSDN通过智能技术生成
import requests        #导入requests包
from bs4 import BeautifulSoup
import os

images = []
# data_list = {}
texts = ""
for i in range(1,250):

    url = 网址+str(i)+'/'
    print(url)
    requests.adapters.DEFAULT_RETRIES = 5  # 增加重连次数
    s = requests.session()
    s.keep_alive = False  # 关闭多余连接
    strhtml = s.get(url)  # Get方式获取网页数据

    soup=BeautifulSoup(strhtml.text,'html.parser')
    datas = soup.find_all("a",class_ = "entry-title-link")
    for data in  datas:
        # title_link = data.find(class_="").get("herf")
        # print(data["href"])
        print(data["href"])
        texts = texts + os.linesep + data["href"]


f = open('title_link.txt', 'w+')
# os.linesep代表当前操作系统上的换行符
f.write(texts)
f.close()


import requests
from bs4 import BeautifulSoup



f = open('title_link.txt'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 在 Python爬取网页的标题和文本内容并存为 doc 格式文件,可以使用第三方库 BeautifulSoup 来解析 HTML 文档,然后使用 python-docx 库来生成 doc 格式文件。 下面是一个示例代码,假设你要爬取的网页 URL 为 "https://www.example.com": ```python import requests from bs4 import BeautifulSoup import docx # 使用 requests 库发起 GET 请求获取网页内容 response = requests.get("https://www.example.com") # 使用 BeautifulSoup 解析 HTML 文档 soup = BeautifulSoup(response.text, 'html.parser') # 获取网页标题 title = soup.title.string # 获取网页正文内容 text = soup.get_text() # 使用 python-docx 库创建一个新的文档 document = docx.Document() # 将网页标题添加到文档中 document.add_heading(title, 0) # 将网页正文内容添加到文档中 document.add_paragraph(text) # 保存文档 document.save('example.docx') ``` 这段代码会使用 requests 库发起一个 GET 请求来获取网页的 HTML 文档,然后使用 BeautifulSoup 解析该文档,并使用 python-docx 库创建一个新的 doc 文档,将网页的标题和正文内容添加到文档中,最后保存文档。 注意:在运行这段代码之前,需要确保已经安装了 requests、BeautifulSoup 和 python-docx 这三个库。 希望这个示例代码能够 ### 回答2: 以下是使用Python爬取网页的标题和内容,并将其存储为doc格式文件的示例代码: ```python import requests from bs4 import BeautifulSoup from docx import Document # 设置目标网页URL url = 'https://www.example.com' # 发送GET请求获取页面内容 response = requests.get(url) # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取网页标题 title = soup.title.string # 获取网页文本内容 text = soup.get_text() # 创建新的Word文档 doc = Document() # 添加标题到文档 doc.add_heading(title, level=1) # 添加文本内容到文档 doc.add_paragraph(text) # 保存文档为doc格式 doc.save('web_page.doc') ``` 请注意,以上示例代码仅供参考,需要根据你具体的需求和网页结构进行调整。同时,还需安装相关的Python库,如`requests`、`beautifulsoup4`和`python-docx`等,可以通过`pip`命令进行安装。 ### 回答3: 以下是一个使用Python代码实现的爬取网页标题和文本内容并存为doc格式文件的示例: ```python import requests from bs4 import BeautifulSoup from docx import Document # 定义要爬取的网页链接 url = "https://example.com" # 发送HTTP GET请求获取网页内容 response = requests.get(url) html_content = response.text # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(html_content, "html.parser") # 获取网页的标题 title = soup.title.string # 获取网页的文本内容 text_content = soup.get_text() # 创建一个新的Word文档 doc = Document() doc.add_heading(title, level=1) # 将文本内容逐段写入Word文档 for paragraph in text_content.split("\n"): if paragraph.strip() != "": doc.add_paragraph(paragraph.strip()) # 保存Word文档 doc.save("output.docx") ``` 以上代码使用`requests`库发送HTTP GET请求获取网页内容,然后使用`BeautifulSoup`库解析网页内容。通过`soup.title.string`获取网页的标题,通过`soup.get_text()`获取网页的文本内容。 接着,使用`docx`库创建一个新的Word文档,并将标题和文本内容逐段写入文档中。最后,使用`doc.save("output.docx")`保存文档为名为`output.docx`的doc格式文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

慧儿1314

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值