记录一些爬页面时候常遇到的小问题
1、解决SSLError异常和避免warning输出
- https类型网站但是没有经过“证书认证机构”认证的网站,在爬取时会抛出SSLError异常,需要在请求时添加verify=False参数response = requests.get(url=url, params=params, headers=headers, verify=False)
- 添加参数verify=False, 但是会默认打印warning信息,为了去掉这些信息,避免日志过大,需要在执行request请求前,添加:requests.packages.urllib3.disable_warnings()
- 另外一个方法,使用certifi库
2、删除特殊空格
页面经常包含一些特殊的空格,这些空格用replace或者re.sub都不太好处理,可以先split再join的方法去除:
s = 'A\xa0B'
s = "".join(s.split())