Python爬虫将爬取到的内容转换成word文件返回

from docx import Document
import requests
from bs4 import BeautifulSoup

def scrape_and_save_as_word(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    # 在这里进行爬取和解析操作,获取所需的内容
    # 假设获取的内容存储在变量 content 中

    content = ""
    # 示例:从 xixixixhahah.com 页面上爬取标题为 h2 的所有内容
    headings = soup.find_all('h2')
    for heading in headings:
        content += heading.text + "\n"

    doc = Document()
    doc.add_paragraph(content)
    
    output_file = "scraped_document.docx"
    doc.save(output_file)  # 保存 Word 文档

    return output_file  # 返回文件名

# 示例使用
url = 'https://xixixiixhahah.com/'  # 目标网页的 URL
word_document = scrape_and_save_as_word(url)
print("Word 文档已保存为:", scraped_document)

word文件保存在main文件的同级目录下。

要使用Python爬虫爬取在线表格,可以借助requests库发送网络请求,获取网页的HTML内容。然后使用parsel库对HTML进行解析,提取出表格数据。接下来,可以使用pandas库将表格数据转换为DataFrame对象,方便后续的数据处理和分析。最后,可以使用python-docx库创建一个新的Word文档,并将表格数据写入到文档中。 下面是一个示例代码,演示了如何使用Python爬虫爬取在线表格并将数据写入Word文档: ```python import requests from parsel import Selector import pandas as pd from docx import Document # 发送网络请求,获取网页内容 url = "https://example.com/table.html" # 替换成实际的表格网址 response = requests.get(url) html = response.text # 使用parsel解析HTML,提取表格数据 selector = Selector(html) table = selector.xpath("//table") rows = table.xpath(".//tr") data = [] for row in rows: cells = row.xpath(".//td/text()").getall() data.append(cells) # 将数据转换为DataFrame对象 df = pd.DataFrame(data) # 创建一个新的Word文档 doc = Document() # 写入标题 doc.add_heading("Table Data", level=1) # 写入表头 table_head = doc.add_table(rows=1, cols=len(df.columns)) for i, header in enumerate(df.columns): table_head.cell(0, i).text = header # 写入表格数据 table_body = doc.add_table(rows=len(df), cols=len(df.columns)) for i, row in enumerate(df.values): for j, value in enumerate(row): table_body.cell(i, j).text = str(value) # 保存Word文档 doc.save("table_data.docx") ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值