Python爬虫 爬取财务报表(东方财富网)
爬取指定股票的财务报表
需求确认
最经接到一个需求,要爬取两支股票公示的财务报表,虽然爬到的内容作用不打,但是这开发的过程的确是挺有学习意义的。
那么在爬取数据之前呢,老生常谈的一个问题就是,先 审查 一下我们要爬取的界面,看看哪些东西是我们需要的。
我呢就根据需求中提到的网址进行数据的爬取
其实看到这个界面,就感觉有戏,毕竟这一个个的列表谁不喜欢呢?
点击下一页能看到这个请求发送出来,应该是最开心的一件事情了。
整理一下Url
http://data.eastmoney.com/notices/getdata.ashx?StockCode=600570&CodeType=1&PageIndex=1&PageSize=99999999&jsObj=xuFcpxdt&SecNodeType=0&FirstNodeType=1&rt=51886903
显而易见的几个参数浮现在眼前
PageIndex -> 当前页
PageSize -> 当前页面显示条数
StockCode -> 股票的编号
这样有了这么一个剖析好的url 还怕爬不到数据么
那么我们来看一下这个url返回的结果
varxuFcpxdt={
"data": [
{
"NOTICEDATE": "2019-04-19T00:00:00+08:00",
"ATTACHTYPE": "0",
"ATTACHSIZE": 119,
"ENDDATE": "2019-04-19T00:00:00+08:00",
"NOTICETITLE": "科大讯飞:第四届董事会第十九次会议决议公告",
"INFOCODE": "AN201904181320674323",
"CDSY_SECUCODES": [
{
"SECURITYVARIETYCODE": "1000005584",
"SECURITYTYPECODE": "058001001",
"SECURITYCODE": "002230",
"SECURITYFULLNAME": "科大讯飞",
"SECURITYSHORTNAME": "科大讯飞",
"SECURITYTYPE": "A股",
"TRADEMARKETCODE": "069001002003",
"TRADEMARKET": "深交所中小板",
"LISTINGSTATE": "0",
"COMPANYCODE": "80027093",
"Eid": 0
}
],
"ANN_RELCOLUMNS": [
{
"COLUMNCODE": "001002009",