python 爬虫爬取所有上市公司公告信息(五)

。,。现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中, 在最内层循环结束后,我们编写程序实现多线程和储存公告内容的功能。 公告最终在对应的json文件里是以键值对的形式存在的,日期则是以...

2017-10-05 15:00:17

阅读数 2572

评论数 0

python 爬虫爬取所有上市公司公告信息(四)

。,。前一篇文章我们编写好了爬取的类,现在我们开始

2017-10-05 14:13:53

阅读数 2126

评论数 0

python 爬虫爬取所有上市公司公告信息(三)

。,。数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写。 首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据。一个股票代码文件对应该股票所有的公告信息。 但如果我们只用股票代码做简单的一层分类,文件也过大,并不方便调用。...

2017-10-05 13:22:36

阅读数 2179

评论数 0

python 爬虫爬取所有上市公司公告信息(二)

。,。设计公告信息爬虫面临的主要问题在上一篇文章已经叙述过了,现在我们开始按照这个思路设计框架,开始编写程序。 首先选择爬取的数据源,这里笔者经过多方比较,最终选择了东方财富网作为公告爬虫的数据源。 下面以飞马国际为例(002210) 我们可以看到,东方财富网专门设有网页保存对应股票的公告信息...

2017-10-05 11:40:41

阅读数 4120

评论数 0

python 爬虫爬取所有上市公司公告信息(一)

。,。前面我们已经了解了python中多线程,selenium,requests等爬虫基本操作的知识,现在我们准备编写一个规模较大的爬虫,目的是爬取所有上市公司2015年至今的公告信息。 相较于前面几个简单的爬虫功能代码,公告信息爬虫需要考虑更多的问题,现在可以预见到的问题有 1. 爬取公告信...

2017-10-05 11:07:41

阅读数 4882

评论数 0

python中的多线程爬虫

。,。本文是在学习网络爬虫课程期间写的,目的是为了总结所学的知识,内容都是笔者自己对多线程爬虫的理解,其中多有不足,希望不吝指教。     多线程和单线程的区别在于线程的数量(字面意思理解),但多线程中各个线程之间数据空间和代码都是共享的,且每一个线程都有自己独立的寄存器。    多线程的复杂...

2017-08-29 15:09:22

阅读数 509

评论数 0

python—如何使用post进行登录操作与非对称加密的破解

。,。笔者最近正在学习网络爬虫,而在爬取数据的过程中,登录是一个很棘手的问题,但有一些信息却只有登录之后才能获取到。在课程的学习后,我也查看了一些网上关于程序如何处理登录的文章,小有收获,作为初学者,文中的错误和不足希望不吝指教。        在设计爬虫程序处理登陆问题的时候,总的方式有两种,...

2017-08-29 01:50:04

阅读数 1901

评论数 1

关于python中phantomjs无法访问网页的处理

。,。笔者使用的系统是linux ubuntu,最近在学习爬虫的过程中遇到了一个抓狂的问题,我尝试使用selenium加phantomjs来登陆网页的时候,Pythony一直提示selenium无法找到元素,不管我怎样修改定位的方法,永远出现No such elements的错误,让我几乎抓狂。再...

2017-08-29 01:14:46

阅读数 2562

评论数 4

python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)

。,。上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法。这篇文章我尝试使用selenium加phantomjs的组合,模拟人的操作来对指定微博的PC端进行爬取...

2017-08-29 01:10:13

阅读数 2577

评论数 0

使用python爬取指定新浪微博用户信息(一)

。,。初学python,第一次尝试写文章。在跟着书和网上教程写了几个实例之后尝试自己编写一个爬虫程序,选择的爬取对象是新浪微博。由于新浪微博的PC端和移动端构造并不一样,第一篇文章采用BeautifulSoup和lxml对较为简单的微博移动端进行爬取,之后文章会分别采用selenium和Phant...

2017-08-21 20:36:29

阅读数 8586

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭