爬虫点滴

一,爬虫的一般步骤:

1.下载数据;2.分析数据;3.保存数据;

二,cookies:存储在用户本地终端上的数据。

三,try   except的使用形式:  

    #下载器
    def download(self,url):
        try:
            #返回数据
            return self.session.get(url)
        except Exception as e:
            print(e)

四,response.text和response.content的区别     

       response.text

           类型:str

          解码类型:根据http头部对响应的编码做出有根据的推测,推测的文本编码

          如何修改编码方式:response.encoding="gbk"

      response.content

          类型:bytes

          解码类型:没有指定

         如何修改编码方式:response.content.decode("utf8")

五,正则表达式:主要的作用是从给定的字符串中通过特定的模式,搜索想要的内容;

            html=response.text
            #从数据html中找出所要的东西
            ids=re.findall(r'http://tu.duowan.com/gallery/(\d+).html',html)
            #返回没有重复的ids
            return set(ids)

六,如何保存套图数据

    #根据套图的信息,持久化
    def save_img(self, img_item_info):
        dir_name=strip(img_item_info['gallery_title'].strip())
        print(dir_name)
        if not os.path.exists(dir_name):
            os.makedirs(dir_name)
        for img_info in img_item_info['picInfo']:
            #建立文件夹,并命名
            img_name=strip(img_info['title'].strip())
            #获取图片
            img_url=img_info['url']
            pix=img_url.split('/')[-1].split('.')[-1]
            #图片的全路径
            img_path=os.path.join(dir_name,"%s,%s"%(img_name,pix))
            if not os.path.exists(img_path):
                response=self.download(img_url)
                if response:
                    img_data=response.content
                    with open(img_path,'wb') as f:
                        f.write(img_data)

七,requests.post()和requests.get(),的选择需要根据浏览器进行查询。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值