python 爬虫爬取所有上市公司公告信息(四)

。,。前一篇文章我们编写好了爬取的类,现在我们开始编写爬去内容的部分

crawler = CrawlBSF()
maxthread = 20
threads = []
CRAWL_DELAY = 0.5
dum = open('stocklist.csv','r')
stocklist = dum.readlines()
dum.close()

先定义一些需要用到的全局变量,将CrawlBSF类实例化为crawler对象,设置多线程最大线程数为20,等待时间为0.6秒,接着打开存放股票代码的stocklist.csv文件,读取文件中的股票代码存储到序列stocklist中

for stock in stocklist:
    for i in range(20):
        stockurl = "http://data.eastmoney.com/notices/getdata.ashx?StockCode=%s&CodeType=1&PageIndex=%s&PageSize=50&rt=50239182"%(stock[2:-1],i)
遍历stocklist列表,i为公告的页数,笔者经过观察发现上市公司的2015至今的公告页数大概在13页左右,这里为了保险选择20页。

两个for循环构造出了所有股票的接口url,打开连接后

构造出的URL打开后如图,我们不难发现,网页中的ENDDATA对应的是公告的时间,后面的“URL”则对应着该公告的网址。

比如


ENDDATA对应的是公告的时间,为2017-07-11,打开后面对应的url连接


公告时间确为2017年7月11日,证实了我们的猜想。

我们使用正则表达式抓取公告的时间与它对应的url,以元组的形式返回方便我们储存和调用。

html_page = get_text(stockurl)
talk_url = re.findall(r'"ENDDATA":"(201[5678].*?))T.*?"URL":"(.*?)"}',html_page)

talk_url为储存日期和公告内容url元组的序列,因为我们只抓取2015年至今的数据,所以在后面添加如下语句

        if talk_url = []:
            break
        else:
            for num in talk_url:
                crawler.enqueueUrl(num)

如果页面没有2015后的公告数据了,则跳出循环,否则将对应的元组传入到爬取的队列中

由于传入的是公告内容链接和其对应的日期,属于元组信息,我们需要对CrawlBSF类中的enqueueUrl函数做一些修改

def enqueueUrl(self,url):  
    if hashlib.md5(url[1]).hexdigest() not in crawler.bloom_download_urls:  
       cur_queue.append(url) 

。,。这样一个最内层的循环基本就完成了。


要使用Python爬取上交所上市公司公告,可以参考以下步骤: 1. 首先,通过爬虫技术获取上交所上市公司公告页面的URL地址。可以使用Python的requests库发送HTTP请求,获取页面的HTML内容。 2. 在获取到页面内容后,使用Python的HTML解析库(如BeautifulSoup)解析HTML,提取出各个公司公告的链接地址。 3. 根据公告链接地址,再次发送HTTP请求,获取公告的具体内容。可以使用Python的PDF库(如PyPDF2)来读取PDF文件内容。 4. 将获取到的公告内容进行保存、分析或其他后续处理。可以使用Python的文件操作库(如csv、xlsxwriter)将公告内容保存为文件,或者使用自然语言处理库(如NLTK)进行文本分析。 注意:爬取上交所上市公司公告需要遵守法律法规,尊重相关网站的使用规定,避免对网站造成过大的访问压力。在使用爬虫技术时,应该合理设置爬取速度、频率,并注意不要对网站进行恶意攻击或造成其他不良影响。引用中提到的「Python: 6 小时爬完上交所和深交所的年报问询函」可能会提供更具体的爬取示例和代码,你可以参考该文章获取更多信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬取上市公司公告-Wind-CSMAR](https://blog.csdn.net/arlionn/article/details/119301035)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值