【万方数据库爬虫简单开发（自用）】

云夜OVO

于 2024-06-11 15:53:02 发布

阅读量1.2k

点赞数 3

分类专栏：项目文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/qq_51502732/article/details/139566976

版权

项目专栏收录该内容

2 篇文章 6 订阅

订阅专栏

万方数据库爬虫简单开发（自用）（一）

使用Python爬虫实现万方数据库论文的搜索并获取信息

使用Python爬虫实现万方数据库论文的搜索并获取信息

后续会逐步探索更新万方，谷歌学术的爬虫写法

1.获取url

driver = webdriver.Chrome() #加载驱动
driver.get('https://www.wanfangdata.com.cn/')

2.输入关键词

wait = WebDriverWait(driver, 10) 
search_box = wait.until(EC.presence_of_element_located((By.ID, 'search-input'))) #等待搜索框加载完成

注意这里的EC是导入的包起的别名

from selenium.webdriver.support import expected_conditions as EC

在这里插入图片描述
先获取搜索框的id,在搜索框上右键->selectorsHub->copy id.selectorsHub是一个很好用的edge浏览器扩展，功能丰富，直接在edge扩展商店搜索即可。

# 输入搜索关键词
search_box.send_keys(keyword)
# 模拟回车按钮
search_box.send_keys(Keys.RETURN)
time.sleep(5)
windows = driver.window_handles
# 切换到当前最新打开的窗口
driver.switch_to.window(windows[-1])

driver.switch_to.window(windows[-1])这句话是为了保证后面的BeautifulSoup获取到的信息来自当前页面而不是网站首页。

3.使用BeautifulSoup解析

content = driver.page_source.encode('utf-8')
soup = BeautifulSoup(content, 'lxml')

4.获取文章标题信息

这里打开F12并分析页面结构：
在这里插入图片描述
可以看到文章标题在class='adjust’下的span标签里边。

titles_bf=soup.find_all('span',{'class':'title'})
titles=BeautifulSoup(str(titles_bf),'lxml')
papers=titles.get_text().strip().split(',')
for paper in papers:
    print(paper)

这样我们就获取到文章的标题信息了。各位可以根据自己的需要再稍作修改即可。

云夜OVO

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【万方数据库爬虫简单开发（自用）】

先获取搜索框的id,在搜索框上右键->selectorsHub->copy id.selectorsHub是一个很好用的edge浏览器扩展，功能丰富，直接在edge扩展商店搜索即可。driver.switch_to.window(windows[-1])这句话是为了保证后面的BeautifulSoup获取到的信息来自当前页面而不是网站首页。这样我们就获取到文章的标题信息了。可以看到文章标题在class='adjust’下的span标签里边。注意这里的EC是导入的包起的别名。
复制链接

扫一扫

专栏目录