[原创][爬虫学习·二]爬取nndc上的核素数据
本文爬取的目标:爬取nndc官网上核素的数据(S(n),S(p))。
步骤如下:1)首先爬取所有核素的名称和质量数,将内容写入nucleus.txt;
2)去除nucleus.txt中的重复行,得nucleus_new.txt;
3)逐行读取nucleus_new.txt中的核素信息并构造URL请求,爬取nndc官网上核素的S(n)和S(p)数据,将结果写入nucleusSnSp.csv文件。
步骤一
先来看一下nndc的搜索页面:
https://www.nndc.bnl.gov/nudat2/indx_sigma.jsp
得到上图所示页面,点击页面中的search按钮。得:
元素左上角为质量数,审查红圈内元素,发现爬取其信息是较为简单的。写出代码如下:
from selenium import webdriver
co = webdriver.ChromeOptions()
co.headless = False #是否有浏览界面
chrome_driver = r'D:\anaconda\Lib\site-packages\selenium\webdriver\chrome\chromedriver.exe'
browser = webdriver.Chrome(executable_path=chrome_driver, options=co)
url = 'https://www.nndc.bnl.gov/nudat2/indx_sigma.jsp'
browser.get(url)
form = browser.find_element_by_tag_name('form'