需求:将东方财富网行情中心的股票数据爬取下来,包括上证指数、深圳指数、上证A股、深圳A股、新股、中小板、创业板 等
一、目标站点分析
东方财富网的行情中心页面包含了所有股票信息。在左侧的菜单栏中包含了沪深个股、沪深指数等所有股票数据。每个板块的股票数据被隐藏在不同的菜单里。
点击“沪深个股”按钮,对应的股票数据就被查询出来了。上方的选项卡中包含了不同板块的板块:沪深A股、上证A股、深证A股、新股、中小板...
我们的需求就是将各个选项卡下面的股票数据全部爬取下来,并分别用Excel保存到本地。
首先,通过查看源代码,发现页面上的数据并不是table格式,在源代码中搜索想要的数据并不能直接找到。
所以,老规矩:谷歌或者火狐浏览器 - F12 键,进行抓包分析。看看这些数据是怎么加载出来的。
1、提取url,获取单页数据
点击“js“,直接过滤出js文件,很容易就找到了股票数据。
#沪深A股
url = "http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?cb=jQuery112404462275420342996_1542343049719&type=CT&token=4f1862fc3b5e77c150a2b985b12db0fd&sty=FCOIATC&js=(%7Bdata%3A%5B(x)%5D%2CrecordsFiltered%3A(tot)%7D)&cmd=C._A&st=(ChangePercent)&sr=-1&p=1&ps=20&_=15423430