IP协议负责传输
TCP协议负责可靠性
DNS负责域名解析
HTTP规定应用进程间通信和交互的规则
requests库
爬虫最重要的2个库,一个是获取HTML文件的requests库,一个是从HTML文件中获取想要文件的BeautifulSoup库。
安装requests库:pip install requests
导入requests库:import requests
基本使用
基本GET请求
无参数
有参数
运行结果:
http://www.baidu.com/?key1=value1&key2=value2
设置header头
基本POST请求
有数据
有数据(json格式)
上传文件
-----------------------
Cookies
请求超时配置
持久会话
代理
使用代理IP访问WEB服务器