python学习笔记————爬虫入门_robots.txt header-CSDN博客

本文链接：https://blog.csdn.net/the_new_zz/article/details/105303281

爬虫

爬虫（网页蜘蛛）原理：
互联网比喻成一张网，每张网上的节点就是数据存储的地方；
Python程序类似蜘蛛，到每个节点中抓取自己的猎物；
爬虫指：模拟客户端给网站发送请求，获取资源后解析并提取有用数据的程序
#只要浏览器能做的事情，爬虫都能做。

爬虫分类:
通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

聚焦爬虫工作流程：
　获得浏览器的url（浏览器的路径）
　响应内容
　提取url
　提取数据
　保存数据

爬虫流程：
爬取—>解析—>存储

python访问互联网

urllib模块：
一般格式：protocol : // hostname[:port] / path / [;parameters][?query]#fragment

request库：

import requests
r = requests.get(url = "http://www.google.cn/")
print(r.status_code)
r.encoding = 'utf-8'
print(r.url)
print(r.text)

import requests;
r = requests.get(url='http://www.itwhy.org')  # 最基本的GET请求
print(r.status_code)  # 获取返回状态
r = requests.get(url='http://dict.baidu.com/s', params={'wd': 'python'})  # 带参数的GET请求
print(r.url)
print(r.text)

requests.get(url,params=None,**kwargs)
url：拟获取页面的url链接
params：url中的额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数

requests.head(url,**kwargs)

#12个参数：
*params：字典或字节序列，作为参数增加到url中
*data：字典、字节序列或文件对象，作为request的内容
*json：json格式的数据，作为request的内容
*headers：字典，http定制头
cookies：字典或cookiejar，request中的cookie
auth：元组，支持http认证功能
files：字典类型，传输文件
timeout：设定超时时间，以秒为单位
proxies：字典类型，设定访问代理服务器，可以增加登陆认证
allow_redirects：true/false，默认为true，重定向开关
steam：true/false，默认为true，获取内容立即下载开关
verify：true/false，默认为true，认证ssl证书开关
cert：本地ssl证书路径

response对象的属性:
1.r.status_code
返回200代表访问成功，其他值如404都代表访问失败

2.r.text
返回页面的内容

3.r.encoding
返回从Http header中猜测的编码方式

4.r.apparent_encoding
从内容中分析出的响应内容编码方式（备选编码方式）

5.r.content
Http响应内容的二进制形式

requests库的异常

requests.ConnectionError	网络链接错误一场，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status	如果不是200，产生异常requestsHTTPError

         方法                             说明

requests.request() 　构造一个请求，支撑一下个方法的基础方法

requests.get()　　　获取HTML网页的主要方法，对应于HTTPGET

requests.head()　获取HTML网页信息头部的方法，对应于HTTP的HEAD

requests.put()　向HTML网页提交POST请求方法，对应HTTP的POST

requests.patch()向HTML网页提交局部修改请求，对应于HTTP的PATCH

requests.delete()　　向HTML页面提交删除请求，对应于HTTPDELETE

HTTP协议

URL格式：http://host[:port] [path]

host:合法的Internet主机域名或IP地址

port：端口号，缺省端口为80

path：请求资源的路径

HTTP URL的理解：

URL是通过HTTP协议存取资源的Internet路径，

一个URL对应一个数据资源

HTTP协议对资源的操作

GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，机获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求想URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置资源，即改变该处资源的部分内容
delete	请求删除URL位置存储的资源