post 爬虫request_python爬虫

最新推荐文章于 2022-05-22 22:42:48 发布

weixin_39785669

最新推荐文章于 2022-05-22 22:42:48 发布

阅读量64

点赞数

文章标签： post 爬虫request

本文链接：https://blog.csdn.net/weixin_39785669/article/details/111621352

版权

包含模块
- urllib.request：打开和读取urls
- urllib.error：包含urllib.request产生的常见的错误(使用try可以捕捉)
- urllib.parse：负责解析url的方法
- urllib.rebotparse：解析robots.txt文件
对网址进行编码
- urllib.parse.urlencode({'key':'value})

访问一个网页的方式
- 打开URL地址
  - 简单的GET请求：urllib.request.urlopen(url, data)
  - 用于POST请求： urllib.request.Request(url, headers)
urlopen的返回对象
- urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)
- 是一个类文件的对象，可以通过read方法、readline方法、read lines方法获取数据
  - rsp.read() 是一个byte类型的
  - rsp.read().decode() 需要进行解码
    - chardet：(第三方包，需要install)可以自动检测页面的编码格式，但是，可能有误

- urlopen遇到301会自动跳转
- urlopen返回对象包含的方法
  - geturl：返回请求对象的url
  - info：请求返回对象的meta信息
  - getcode：返回的http code
request.data的使用
- 访问网络的两种方法
  - get
    - 利用url参数给服务器传递信息
    - 参数为dict，然后用parse编码
    - urlopen(url) data为None发起GET请求

- URLError和HTTPError区别
  - HTTPError是对应HTTP请求的返回码错误，如果返回错误码是400以上的，则引发HTTPError
  - URLError对应的是网络出现问题，包括url问题
  - 关系区别：OSError--URLError--HTTPError

上面都是最简单的爬虫使用，随着反爬虫的出现以及对爬虫的要求增多，需要去了解更多高级的功能
UserAgent(让服务器把爬虫当作浏览器)
- 用户代理；属于headers的一部分，服务器通过UA来判断访问者的身份
- 常见的UA值，使用的时候可以直接复制，也可以用浏览器访问的时候抓包
- 两种方法添加：
  - urllib.request.Request("http://www.baidu.com", headers = {"User-Agent": "xxx"} )
  - urllib.request.Request.add_header() 添加/修改一个特定的header
一直在使用urlopen，它是一个特殊的opener，不支持代理、cookie等其他的HTTP/HTTPS高级功能，所有要支持这些功能：
- 1.使用相关的Handler处理器来创建特定功能的处理器对象；
- 2.然后通过urllib2.build_opener()方法使用这些处理器对象，创建自定义opener对象；
- 3.使用自定义的opener对象，调用open()方法发送请求
- ps:如果程序里所有的请求都使用自定义的opener,可以使用urllib2.install_open()将自定义的opener对象定义为全局opener

- - 创建Opener
    - opener = urllib.request.build_opener(httpproxy_handler)
- - 应用代理
    - response = opener.open(request) #只有使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理
    - urllib.request.install_opener(opener) #将opener应用到全局，之后所有的，不管是opener.open()还是urlopen() 发送请求，都将使用自定义代理

- - - - FileCookieJar(filename, delayload=None, policy=None)
      - 使用文件管理cookie，filename是保存cookie的文件
- - - - MozillaCookieJar(filename, delayload=None, policy=None)
      - 创建与mozilla浏览器兼容的FileCookieJar实例

- - - - LwpCookieJar
      - 创建与libwww-perl标准兼容的Set-Cookie3格式的FileCookieJar实例
- - - - CookieJar -> FileCookieJar -> MozillaCookieJar & LwpCookieJar

- - - 使用方法
      - 创建cookie对象
      - cookie = cookiejar.CookieJar()
- - - - 创建cookie_handler
      - cookie_handler = request.HTTPCookieProcessor(cookie)

SSL
- SSL 是指安全套接字层，简而言之，它是一项标准技术，可确保互联网连接安全，保护两个系统之间发送的任何敏感数据，防止网络犯罪分子读取和修改任何传输信息，包括个人资料
- SSL 证书安装在服务器上
- 单独处理SSL证书，让程序忽略SSL证书验证错误
js加密
- 参考 https://my.oschina.net/u/4004713/blog/3067132
- 是一种反爬措施
- 经过加密传输的就是密文，但是加密函数或者过程一定是在浏览器完成，也就是一定会把js代码暴露给使用者
- 怎样判断网站有没有使用js加密
  - 在请求中，找到Form Data，可以看到有salt和sign
  - 最初的账号密码明文传输--->对其进行md5加密--->对其进行加盐