#从selenuim库导入web驱动。
from selenium import webdriver
# 将驱动控制为chrome。
driver = webdriver.Chrome()
#打开小说官网。
driver.get('https://www.xyyuedu.com/')
# 最大化窗口
driver.maximize_window()
#最大等待加载时间 10 s
driver.implicitly_wait(10)
#定义需要提取的目录。
Directory = ["散文精选","名言名句","人生智慧","诗词大全","心情日记","情感文章","故事大全","文摘大全","思维游戏"]
#遍历取出所有目录。
for i in Directory:
#点击目录。
driver.find_element_by_link_text(i).click()
# 接收文章名和url。
result = []
#遍历取出所有文章名称和url。
for link in driver.find_elements_by_css_selector(".index-list.channel-main>div:nth-child(2)>ul>li>a"):
# 文章名称和url放入数组
result.append([link.text,link.get_attribute("href")])
pass
# 遍历取出所有的文章名称和url。
for i in result:
#打开url。
driver.get(i[1])
#获取文本内容。
Result = driver.find_element_by_css_selector(".article-article").text
#拼接文件名称写入text。
desktop_path = "C:\\Users\\liwz\\Desktop\\诗词大全\\" + i[0] +".txt"
file = open(desktop_path, 'w',encoding="utf8")
file.write(Result)
pass
今天第一次接触Seleium库,发现在获取不到源代码的情况下可以用seleuim库做爬虫,虽然很简单但是很值得新手学习,欢迎大家来交流。
。