爬虫学习一：打开特定网页获取信息

最新推荐文章于 2022-04-12 10:35:58 发布

shawncheer

最新推荐文章于 2022-04-12 10:35:58 发布

阅读量627

点赞数

分类专栏：爬虫学习 python学习

本文链接：https://blog.csdn.net/shawncheer/article/details/50714637

版权

python学习同时被 2 个专栏收录

40 篇文章 2 订阅

订阅专栏

爬虫学习

7 篇文章 0 订阅

订阅专栏

#coding=utf-8

#===============================================================================
#import urllib2

#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()

#以上运行结果
#urllib2.HTTPError: HTTP Error 403: Forbidden

#=================================================================================

import urllib2  
import re  #引入正则表达式
  
#模仿用浏览器访问
headers = {  
    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
    url = 'http://blog.csdn.net/shawncheer',  
    headers = headers  
)  
  
content = urllib2.urlopen(req).read()  

#解码，如果不解码，就会出现乱码现象。
content=content.decode("utf8")  

#正则表达式：(?<=<li>).+?(?=</li>) 
result = re.findall(r'(?<=<li>).+?(?=</li>)',content)  
  
for x in xrange(0,7):  
    print result[x]  
    pass

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shawncheer

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习一：打开特定网页获取信息

#coding=utf-8#===============================================================================#import urllib2#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()#以上运行结果#urllib2.H
复制链接

扫一扫