Python爬虫从入门到懵逼-1

封装自己的简易爬虫框架

1.框架封装

#--coding:utf-8--
import urllib2
class my_crawler:#我的爬虫类  python类定义:结束 如果要继承则在冒号前用括号 可以多继承
    def __init__(self,url,path):#Python中的构造方法 self  相当于Java的this
        self._url=url
        self._path=path
    def read_resource(self):#读取资源的方法
        raw_url=urllib2.quote(self._url) #考虑到中文问题这里用quote编码
        url=urllib2.unquote(raw_url)#unquote解码
        return urllib2.urlopen(url,timeout=5).read()#打开网页 设置超时时间 读取内容
    def write_resource(self):
        try:
            f=open(self._path,'wb')#open打开文件  wb二进制写入
            f.write(self.read_resource()) #写文件
            f.close()#关闭文件
            print (self._url+"信息成功爬取并写入"+self._path)
        except Exception as e:#尝试捕获异常
            print ("出现异常"+e)

2.框架使用

#--coding:utf-8--
from my_crawler_framework import my_crawler#从my_crawler_framework模块中引入my_crawler类
url="http://www.baidu.com/s?wd=肥猫下楼吃面包"#定义需爬取的网址
path="d:/img/crawlers/zp.html"#文件写入路径
framework=my_crawler(url,path)#利用构造方法创建my_crawler对象
framework.write_resource()#调用my_crawler对象的write_resource方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值