Python写的网络爬虫程序(很简单)

Python写的网络爬虫程序(很简单)

这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下。不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现。


python程序如下:

import re,urllib
strTxt=""
x=1
ff=open("wangzhi.txt","r")

for line in ff.readlines():
	f=open(str(x)+".txt","w+")
	print line
	n=re.findall(r"<p>(.*?)<\/p>",urllib.urlopen(line).read(),re.M)
	for i in n:
		if len(i)!=0:
			i=i.replace(" ","")
			i= i.replace("<strong>","")
                        i = i.replace("</strong>","")
                        strTxt = strTxt + i
                        strTxt = re.sub(r"<a href=(.*?)>", r"", strTxt)
                        strTxt=re.sub(r"<a(.*?)>",r"",strTxt)
                        strTxt=re.sub(r"<span>(.*?)</span>",r"", strTxt)
                        strTxt = re.sub(r"<\/[Aa]>", r"", strTxt)
                #print strTxt
                f.write(strTxt)
                strTxt=""
        f.close
        x=x+1
ff.close()
</span>


wangzhi.txt的内容如下:

http://sports.163.com/14/1126/22/AC0TVK4E00052UUC.html
http://sports.163.com/14/1126/22/AC0TGD4700052UUC.html
http://sports.163.com/14/1126/22/AC0TAHNK00052UUC.html


结果分析:

运行程序,有3个输出文件,分别是3个URL地址对应的网页的内容。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值