技巧一:请求库
请求库有:requests、selenium、urllib、aiohttp,我个人比较推荐新手小白掌握urllib和requests请求库。
urllib库
是Python内置的HTTP请求库,不需要额外安装即可使用,包含以下4个模块:
request 打开和读取 URL,最基本的HTTP请求模块,可以用来模拟发送请求
error 包含 urllib.request 抛出的异常,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。
parse 用于解析 URL,比如拆分、解析、合并等。
robotparser 用于解析 robots.txt 文件,主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬。
if__name == main :
#百度贴吧的url
url= https://tieba.baidu.comf?
#防止ip被禁,重新指定User-Agent字段信息
headers =[
'lser-Agent : Moilla/