目录
一、爬虫简介
一段抓取互联网信息的自动化的程序,从互联网上抓取对于我们有价值的信息,理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关系不大,但是,总有相对顺手、简单的。目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的!
二、爬虫基本操作方法
-Requests块的安装与使用
Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。
安装Requests模块
pip3 install requests
1、GET请求
# 1、无参数
import requests
R = requests.get('https://mp.csdn.net/')
print R.url
print R.text
# 2、有参数
import requests
payload = {'key1': 'value1', 'key2': 'value2'}
R = requests.get("https://mp.csdn.net/", params=payload)
print R.url
print R.text
向http://mp.csdn.net/发送一个GET请求,将请求和响应封装在R对象里面
2、POST请求
# 1、基本POST实例
import requests
payload = {'key1': 'value1', 'key2': 'value2'}
R = requests.post("http://www.qwerty.com/", data=payload)
print R.text
# 2、发送请求头和数据实例
import requests
import json
payload = {'some': 'data'}
headers = {'content-type': 'application/json'}
R = requests.post(