python爬取文章_python 爬取文章

1144271-20170417220936556-1670643885.gif

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范,更高级的用法还要大家自己实践。

好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html

(注意,有一些网站会做一些反爬处理,关于这些网站的爬取会在近期的文章中说明)

这是一篇散文,)

可知网页的编码方式为GB2312

但在解码是要decode(’GB18030‘),

具体说明:http://www.cnblogs.com/jjj-fly/p/6696523.html

下面开始实现代码:

1 #coding=GB18030

2 importurllib.request3 from bs4 importBeautifulSoup4 importre5

6 url="http://www.duanwenxue.com/article/673911.html"

7 a=urllib.request.urlopen(url)8

9 htmlstr=a.read().decode('GB18030')10

11 soup=BeautifulSoup(htmlstr,'html.parser')12

13 y=re.compile(r'

([\s\S]*?)

')14 text=y.findall(str(soup)) #第一次正则表达式筛选所有

中的内容

15

16 x=''

17 print(len(text))18 for i inrange(0,len(text)):19 x=x+text[i]20

21 text1=re.sub("?\w+[^>]*>",'',x) #去掉html标签

22

23 text2=text1.replace("。",'。\n\n\0\0') #让文本更好看

24 print(text2)

输出结果

1144271-20170524213935185-1506361920.png

over!

参考:http://www.cnblogs.com/jjj-fly/p/6901022.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值