爬虫url lib


为什么要爬虫:数据时代通过爬虫可以进行数据的抓取

网页的三大特征:每个网页都有自己的url,网页都使用html,http

爬虫,反爬虫,反反爬虫

DNS:是吧域名解析成Ip 的一种技术,并不是万物皆可爬,都得遵守robots协议

get请求参数会在地址栏中出现,

post请求会隐藏在form表单里

cookie:存储在本地浏览器中

爬虫思路有多种爬虫方式如urllib2,requests,相对来说requests简单一点:

              先输入一个需要爬虫的地址

              输入爬虫的内容以字典方式保存

            进行解析:urllib2.urlencod("2")

            然后请求:urllib2.Resquest().read


requests.get(url,headers=headers)


r=url lib,urllibencod("字典")

解码     

反码:urllib2.unquote(r)

在编译器中打出查询的方法:


                   s= urllib.urlencod("输入的解析内容")

                full=url+"?"+s

         重新输入 url地址

读取:

        url lib2.Request(要读取的地址,读取的文字类型)

        url li b2.urlopen(request).read()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值