python 爬虫demo

这篇博客介绍了使用Python 3.4编写的一个简单爬虫示例,专注于抓取百度图片首页的图片。文章提到了可能遇到的UnicodeDecodeError问题,并给出了设置Python默认编码为utf-8的解决方法,包括创建bat文件来避免该错误。项目源代码托管在CSDN的git仓库中。
摘要由CSDN通过智能技术生成

python 3.4 所写爬虫

仅仅是个demo,已百度图片首页图片为例。能跑出图片上的图片;

使用 eclipse pydev 编写:


from SpiderSimple.HtmLHelper import *
import imp
import sys
imp.reload(sys)  
#sys.setdefaultencoding('utf-8')   


html = getHtml('http://image.baidu.com/')
try:
    getImage(html)
    exit()
except Exception as e:
    print(e)  

  HtmlHelper.py文件 

上面的 SpiderSimple是自定义的包名

from urllib.request  import urlopen,urlretrieve
#正则库
import re
#打开网页
def getHtml(url):
    page = urlopen(url)                
    html = page.read()
    return html
#用正则爬里面的图片地址    
def getImage(Html):
    try:
        
        #reg = r'src="(.+?\.jpg)" class'
        #image = re.compile(reg)   
        image =  re.compile(r'<img[^>]*src[=\"\']+([^\"\']*)[\
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值