#coding=utf-8
#===============================================================================
#import urllib2
#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()
#以上运行结果
#urllib2.HTTPError: HTTP Error 403: Forbidden
#=================================================================================
import urllib2
import re #引入正则表达式
#模仿用浏览器访问
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = 'http://blog.csdn.net/shawncheer',
headers = headers
)
content = urllib2.urlopen(req).read()
#解码,如果不解码,就会出现乱码现象。
content=content.decode("utf8")
#正则表达式:(?<=<li>).+?(?=</li>)
result = re.findall(r'(?<=<li>).+?(?=</li>)',content)
for x in xrange(0,7):
print result[x]
pass
爬虫学习一 : 打开特定网页获取信息
最新推荐文章于 2022-04-12 10:35:58 发布