基于正则表达式(python)对东方财富网上证指数吧爬虫实例

最新推荐文章于 2024-08-20 14:41:57 发布

妖小先生

最新推荐文章于 2024-08-20 14:41:57 发布

阅读量6.7k

点赞数 2

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/CCyutaotao/article/details/51471239

版权

本文介绍了如何使用Python正则表达式爬取东方财富网上证指数吧一天内的所有帖子。首先分析首页，接着确定帖子URL，下载评论内容，并进行输出。在处理过程中，通过系统时间限制只爬取一天的数据，并用错误计数来判断是否跨越日期。源码已上传至GitHub。

摘要由CSDN通过智能技术生成

这一周没有写博客,倒腾了好几天gitlab,白天一直在写爬虫,遇到了很多问题,一一解决了

这个爬虫目的是从东方财富网的上证指数吧爬取一天的所有发帖
http://guba.eastmoney.com/list,szzs,f.html

具体实现步骤如下:

1.分析网站首页

这里写图片描述

1.首页上有一个按照发帖时间排序我选择的target_urls是根据这个排序产生的网址集
2.对于分页的处理,我是进行的迭代确定的每夜的网址url
3.判断退出循环的标志
  原本希望通过获得右下角的那个总页数,但是那个数据是通过js加载出来的,而这个爬虫是通过下载静态html然后解析数据,所以是找不到那个总页数所在的节点的.所以最终设置循环的上限并没有动态生成而是人工指定
  (~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~待改进一)

代码片段:

def add_new_url(self,i):                           
     self.target_urls.add('http://guba.eastmoney.com/list,szzs,f_%d.html'%i)
     return        
def add_new_urls(self,n):
     for i in range(1,n+1):#range使用
        self.add_new_url(i)
     return

2.分析帖子url

1.'/news  ........ html'是帖子的url的后缀相同部分
2.因为我们将要访问url来下载评论,所以要把整个url拼接好 使用urlparse模块的urljoin方法

 def parse(self,page_url):
       self.new_comment_urls=set()
       urls2=set()  
       html_cont=urllib2.urlopen(page_url).read()
       new_comment_urls=re.findall('/news\S+html',html_cont)
       for comment_url in new_comment_urls :
            fu_url=urlparse.urljoin(page_url,comment_url)
            urls2.add(fu_url)