用Python下载巨潮资讯农业上市企业的年报PDF文件(二)

标签: 爬虫 Python PDF
75人阅读 评论(0) 收藏 举报
分类:

本文首发于我的博客:http://gongyanli.com/
代码传送门:https://github.com/Gladysgong/cninfo/tree/master/cninfo/pdf

前言:之前写过一篇利用文章——PhantomJS+Selenium+Scrapy抓取巨潮资讯网企业信息(一),来抓取巨潮资讯企业基本信息的文章,后来我还需要拿这些企业的年报的PDF文件,所以我试过也用也用上面这种思路去抓取,但是太过复杂,需要动态点击的元素太多,实现起来很麻烦。后来仔细看年报这块儿是通过post请求加参数来发送request,所以就很简单了。

一、思路


第一张图中我们选中了行业和所需要的年度报告,发送请求后会返回列表,里面有所有农业企业年度报告的链接。
第二张图中我们看到了请求的url和所需参数,如图示绿色框所示,所以我们只需要构建这样的请求即可。

query = {
    'stock': '',
    'searchkey': '',
    # 'plate': PLATE,
    'plate': '',
    'category': CATEGORY,
    'trade': '农、林、牧、渔业',
    'column': 'szse',
    'columnTitle': '历史公告查询',
    'pageNum': page_num,
    'pageSize': MAX_PAGESIZE,
    'tabName': 'fulltext',
    'sortName': '',
    'sortType': '',
    'limit': '',
    'showTitle': '',
    'seDate': START_DATE + '~' + END_DATE,
}
r = requests.post(URL, query, HEADER, timeout=RESPONSE_TIMEOUT)

不复杂,把请求的返回内容存入csv文件,最后再通过downloader读取csv文件,最后根据csv中的链接把PDF文件下载下来。

二、代码实现

代码我和PhantomJS+Selenium+Scrapy抓取巨潮资讯网企业信息(一)这篇文章的代码放在一起了,放着cninfo的pdf文件中了,感兴趣自己可以看,可以跑起来的。

查看评论

python爬取CSDN博客并用WordCloud词云分析

前言这周就不写机器学习算法了,下周再更新Logistic分类算法吧,这个算法算是机器学习比较重要的算法了,里面还有关于梯度下降的应用。 这周我们来玩点有趣的东西——爬虫。 爬虫也是最近不知不觉就火...
  • qq_34739497
  • qq_34739497
  • 2017-10-19 16:02:47
  • 148

网络爬虫

闲来无事想下点财务数据,于是出现了我下载数据的三部曲。 第一部: 来到了一个网站叫“巨潮资讯网-多层次资本市场信息披露平台”http://www.cninfo.com.cn/  网站很不错,所有报表...
  • WHF_0000
  • WHF_0000
  • 2011-07-06 16:24:41
  • 1563

下载巨潮网络数据的python脚本

从巨潮网络下载财报数据,觉得手动比较麻烦,就做了一个简单的python脚本。具体代码如下: driver = webdriver.PhantomJS(executable_path='浏览器引...
  • DreamBitByBit
  • DreamBitByBit
  • 2017-06-14 22:33:54
  • 1107

Python小爬虫小总

学生一枚,写爬虫主要为论文准备非结构化文本数据,不作为任何商业用途。希望本文可以帮祝大家获取学习数据。 首先说明一下,我是用Python写的小爬虫,主要爬取页面文本和相关附件。 一、思路:文本数据比结...
  • huludan
  • huludan
  • 2016-03-19 12:54:41
  • 2199

java爬虫实战(2):下载沪深信息科技类上市公司年度报告

java爬虫实战(2):下载沪深信息科技类上市公司年度报告*本实战仅作为学习和技术交流使用,转载请注明出处;本篇实战来源于一位朋友需要进行学术研究,涉及数据内容是2010年-2016年的沪深主板上市信...
  • w305172521
  • w305172521
  • 2017-04-07 16:12:37
  • 904

python3爬虫的总结及参考资料

python3的爬虫一般都是利用urllib.request抓取网页和下载数据,然后用bs4中的BeautifulSoup进行html解析,下面是本人学习中借鉴的参考网帖以及对某些问题的总结。 1....
  • iamiman
  • iamiman
  • 2016-11-10 21:31:57
  • 3283

python 爬虫爬取所有上市公司公告信息(三)

。,。数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写。 首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据。一个股票代码文...
  • a980135330
  • a980135330
  • 2017-10-05 13:22:36
  • 714

python 爬虫爬取所有上市公司公告信息(四)

。,。前一篇文章我们编写好了爬取的类,现在我们开始
  • a980135330
  • a980135330
  • 2017-10-05 14:13:53
  • 652

python 爬虫爬取所有上市公司公告信息(一)

。,。前面我们已经了解了python中多线程,selenium,requests等爬虫基本操作的知识,现在我们准备编写一个规模较大的爬虫,目的是爬取所有上市公司2015年至今的公告信息。 相较于前面...
  • a980135330
  • a980135330
  • 2017-10-05 11:07:41
  • 1561

python 爬虫爬取所有上市公司公告信息(五)

。,。现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中, 在最内层循环结束后,我们编写程序实...
  • a980135330
  • a980135330
  • 2017-10-05 15:00:17
  • 713
    个人资料
    持之以恒
    等级:
    访问量: 3万+
    积分: 421
    排名: 11万+
    最新评论