Python小爬虫的一般思路

小爬虫一般步骤:
    (1)下载数据
        第三方包
        urllib:系统自带,连接网络,urlopne,Request
        如果下载的网址是https,需要导入ssl
        
        准备数据
            网址:
            headres(请求头):
        封装请求
            request = Request(网址,请求头)
        打开连接
            conn = urlopen(request)
        判断是否连接成功
            if conn.code == 200:
                data = conn.read()
        文件下载
            from urllib.request import urlretrieve
            urlretrieve("文件地址","存储地址")
    
    (2)处理数据
        解压(可选项)
        编码:网页编码格式,meta charset="编码格式"
            data.decode(encoding=编码格式)
        转换数据为HTML格式
            lxml:etree
            html = etree.HTML(data)
        获取需要的数据
            #   //:前是什么东西我们都不考虑
            正确取出信息的方式为"//标签名[@属性名='属性值']/标签名[@属性名='属性值']"
            #   获取属性:@属性名
            #   如果同一级出现多个标签 例:<div id="pic-meinv" class="pic-meinv" style="margin-bottom: 0;">
            #   正确进入下一级的方式为"//div[@id='pic-meinv']/a/img"
            获取内容:text()
            内容列表 = html.xpath("")
        循环遍历内容列表
            内容
            字符串方法进行处理

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值