python爬虫selenium3.141 API 生成Word文档练习

菜鸟练习,高手绕道,先上代码:

from docx import Document
from selenium import webdriver
from time import sleep

links = []


def selenium_api_crawl():
    """
    爬取selenium3.141 API,生成word文档。
    :return:
    """
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.get('https://www.selenium.dev/selenium/docs/api/py/py-modindex.html')
    sleep(3)
    # 获取二级页面的所有链接元素
    element_links = driver.find_elements_by_xpath('//td/a')
    document = Document()
    document.add_heading('selenium3.141 API', level=0)
    # 从元素属性中获取二级页面链接,但不在遍历中打开,可能会导致后面链接获取失败。
    for element_link in element_links:
        link = element_link.get_attribute('href')
        links.append(link)
    n = 1
    # 遍历每个链接,获取页面文本,并保存到Word文档中。
    for link in links:
        driver.get(link)
        sleep(3)
        link_text = driver.find_element_by_xpath('//div[@role="main"]').text
        t = link_text.find('\n')
        link_text_title = link_text[0:t]
        document.add_heading(str(n) + '、' + link_text_title, level=1)
        n += 1
        link_text_content = link_text[t:]
        document.add_paragraph(link_text_content+'\n')
    document.save('selenium3.141API.docx')


if __name__ == '__main__':
    selenium_api_crawl()

生成Word文档:(如果能够直接附件文档就好了)

注意事项:

1、pycharm安装python-docx,python-docx为模块,docx为旧模块。安装失败时先升级pip

2、python-docx更多参考官方文档:https://python-docx.readthedocs.io/en/latest/

3、seleniumAPI链接:https://www.selenium.dev/selenium/docs/api/py/py-modindex.html,可用谷歌翻译直接查看。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值