python分享--适合新手小白的爬虫项目,selenium库做的爬取文章,可以用来练手。

这篇博客介绍了如何利用Selenium库来爬取小说网站的目录和文章内容。作者首先导入webdriver模块并设定Chrome浏览器,然后遍历指定的目录,点击每个目录进入后抓取文章标题和URL。接着,通过循环遍历文章URL,获取文章正文,并将其保存为TXT文件。这个简单的爬虫实例适合初学者学习。
摘要由CSDN通过智能技术生成
#从selenuim库导入web驱动。
from selenium import webdriver

# 将驱动控制为chrome。
driver = webdriver.Chrome()
#打开小说官网。
driver.get('https://www.xyyuedu.com/')
# 最大化窗口
driver.maximize_window()
#最大等待加载时间 10 s
driver.implicitly_wait(10)

#定义需要提取的目录。
Directory = ["散文精选","名言名句","人生智慧","诗词大全","心情日记","情感文章","故事大全","文摘大全","思维游戏"]
#遍历取出所有目录。
for i in Directory:
    #点击目录。
    driver.find_element_by_link_text(i).click()
    # 接收文章名和url。
    result = []
    #遍历取出所有文章名称和url。
    for link in driver.find_elements_by_css_selector(".index-list.channel-main>div:nth-child(2)>ul>li>a"):
        # 文章名称和url放入数组
        result.append([link.text,link.get_attribute("href")])
    pass
    # 遍历取出所有的文章名称和url。
    for i in result:
        #打开url。
       driver.get(i[1])
       #获取文本内容。
       Result = driver.find_element_by_css_selector(".article-article").text
       #拼接文件名称写入text。
       desktop_path = "C:\\Users\\liwz\\Desktop\\诗词大全\\" + i[0] +".txt"
       file = open(desktop_path, 'w',encoding="utf8")
       file.write(Result)
    pass

     今天第一次接触Seleium库,发现在获取不到源代码的情况下可以用seleuim库做爬虫,虽然很简单但是很值得新手学习,欢迎大家来交流。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值