Python网页抓取转换doc

Python网页抓取转换doc

一、根据安装包所提示内容安装对应的第三方包
我这个安装包指定的是pypandoc的版本是1.6.3

pip install pypandoc==1.6.3 -i https://pypi.tuna.tsinghua.edu.cn/simple

二、pypandoc的用法
网上一搜pypandoc的用法有许多,但是大多数都是将一个html文件下载下来,然后去转换html转换为docx文件。我这个方法更适用于在RPA开发中的取数。

import os
from selenium import webdriver
from time import sleep
import pypandoc
driver = webdriver.Chrome()
driver.maximize_window()
 
driver.get(url=r"http://www.cfachina.org/aboutassociation/associationannouncement/202301/t20230120_35468.html")
sleep(3)
html = driver.find_element_by_xpath('//div[@class="job-infos"]').get_attribute("outerHTML")
title = driver.find_element_by_xpath("//div[@class='job-tit']").text
content_savePath = r"D:\test" + os.sep + title + ".docx"
pypandoc.convert_text(html, 'docx', 'html', outputfile=content_savePath)
driver.quit()

如果对获取到的内容不满意,可以修改html对应的xpath。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值