从Excel表中依次读取列中的网页地址,并抽取这些网页的标题和文本,存储到TXT文件中,先写代码...

好的,这是一个使用 Python 和 Excel 库来完成上述任务的例子。首先,我们需要安装相关的库:

!pipinstall openpyxl requests bs4

然后,我们可以使用以下代码来完成上述任务:

import openpyxl
import requestsfrom bs4 import BeautifulSoup

# 打开 Excel 文件
wb = openpyxl.load_workbook('urls.xlsx')

# 选择第一个工作表
sheet = wb['Sheet1']

# 遍历表中的每一行
for row in sheet.iter_rows(min_row=1, max_col=1):
    # 获取单元格中的 URL
    url = row[0].value
    
    # 使用 requests 库发送 HTTP 请求
    response = requests.get(url)
    
    # 使用 BeautifulSoup 解析 HTML 响应
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取页面的标题和文本
    title = soup.title.string
    text = soup.get_text()
    
    # 将标题和文本写入文件
    with open('output.txt', 'a', encoding='utf-8') as f:
        f.write(title + '\n')
        f.write(text + '\n')

在这段代码中,我们使用了 openpyxl 库来打开 Excel 文件,然后使用 BeautifulSoup 库来解析 HTML 响应并提取页面的标题和文本。最后,我们使用 with open 语句将标题和文本写入文件。

请注意,这只是一个简单的例子,可能需要根据实际情况进行修改。例如,你可能需要捕获网络请求的异常,或者处理编码问题等等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值