python分享--适合新手小白的爬虫项目，selenium库做的爬取文章，可以用来练手。

最新推荐文章于 2023-01-13 09:36:21 发布

Peter高效办公有大招

最新推荐文章于 2023-01-13 09:36:21 发布

阅读量351

点赞数 1

文章标签： python selenium 爬虫 rpa

本文链接：https://blog.csdn.net/qq_32516133/article/details/115706662

版权

这篇博客介绍了如何利用Selenium库来爬取小说网站的目录和文章内容。作者首先导入webdriver模块并设定Chrome浏览器，然后遍历指定的目录，点击每个目录进入后抓取文章标题和URL。接着，通过循环遍历文章URL，获取文章正文，并将其保存为TXT文件。这个简单的爬虫实例适合初学者学习。

摘要由CSDN通过智能技术生成

#从selenuim库导入web驱动。
from selenium import webdriver

# 将驱动控制为chrome。
driver = webdriver.Chrome()
#打开小说官网。
driver.get('https://www.xyyuedu.com/')
# 最大化窗口
driver.maximize_window()
#最大等待加载时间 10 s
driver.implicitly_wait(10)

#定义需要提取的目录。
Directory = ["散文精选","名言名句","人生智慧","诗词大全","心情日记","情感文章","故事大全","文摘大全","思维游戏"]
#遍历取出所有目录。
for i in Directory:
    #点击目录。
    driver.find_element_by_link_text(i).click()
    # 接收文章名和url。
    result = []
    #遍历取出所有文章名称和url。
    for link in driver.find_elements_by_css_selector(".index-list.channel-main>div:nth-child(2)>ul>li>a"):
        # 文章名称和url放入数组
        result.append([link.text,link.get_attribute("href")])
    pass
    # 遍历取出所有的文章名称和url。
    for i in result:
        #打开url。
       driver.get(i[1])
       #获取文本内容。
       Result = driver.find_element_by_css_selector(".article-article").text
       #拼接文件名称写入text。
       desktop_path = "C:\\Users\\liwz\\Desktop\\诗词大全\\" + i[0] +".txt"
       file = open(desktop_path, 'w',encoding="utf8")
       file.write(Result)
    pass

今天第一次接触Seleium库，发现在获取不到源代码的情况下可以用seleuim库做爬虫，虽然很简单但是很值得新手学习，欢迎大家来交流。