爬取人民日报_人民日报语料库抓取python实现

最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。

在windows下运行的同学,请把程序中文件夹和文件名的编码格式改为GBK,代码如下:

#coding:utf-8

#author:zhangyang

#date:2015-5-17

#此程序用于爬取人民日报下的数据资源。主页面需要提取包括1946年到2003年之间所有月份

#次级页面是各个月份的所有报道

#末级页面是报道内容

import urllib2,bs4,os,re

from time import clock

#关于bs4解析url的方法可以参看:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

starturl="http://rmrbw.info/"

testMonthURL="http://rmrbw.info/thread.php?fid=6"

def getSoup(url):

pape=urllib2.urlopen(url)

soup=bs4.BeautifulSoup(''.join(pape),'lxml')

return soup

#从主页面中读取每一年中每个月的URL组成一个URLLIST返回࿰

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值