爬虫: requests, Beautiful Soup, 正则

最新推荐文章于 2022-07-14 09:40:51 发布

Detective_0

最新推荐文章于 2022-07-14 09:40:51 发布

阅读量508

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/Detective_0/article/details/106166452

版权

requests库：请求

robots.txt：爬虫排除标准

Beautiful Soup：解析HTML页面

re：正则表达式

Scrapy框架

IDE

IDLE：自带

SublimeText：专业

Wing：调试功能，多人开发

Visual Studio & PTVS, PyCharm

数据分析，科学计算：Canop, Anaconda

Request库

`r = requests.request(url, params=None, **kwargs)`

Request——Response

1. Response属性：

status_code：200表示成功

text，url

encoding：如果header中不存在charset，则认为ISO-8859-1

apparent_encoding：备选编码（内容分析）

content：二进制形式，response.content.decode('utf-8')代替text

2. 异常：

ConnectionError：连接错误

HTTPError

URLRequired：url缺失

TooMuchRedirects：重定向异常

ConnectTimeout：连接超时

Timeout：超时

r.raise_for_status(), 不是200则引发HTTPError异常

try:
    r = requests.get(url, timeout=30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
except:
    return "产生异常"

3. HTTP协议：超文本传输协议，请求与相应模式，无状态协议，URL作为标识

操作：GET, HEAD, POST, PUT, PATCH, DELETE

URL：http://host[:post][path]，存取资源的Internet路径，对应数据资源

host：主机域名或IP

port：端口号，缺省端口80

path：路径

**kwargs参数	说明
params	字典、字节序列，作为参数增加到url中
data	字典、字节序列、文件对象，作为Request的内容POST
json	JSON格式的数据，作为Request的内容
headers	字典，HTTP定制头，模拟浏览器
cookies	字典，CookieJar，Request中的cookie
auth	元组，支持HTTP认证功能
files	字典类型，传输文件
timeout	设定超时时间，秒为单位
proxies	字典类型，设定访问代理服务器，可以增加登录认证（防追踪）
allow_redirects	True/False，重定向开关
stream	获取内容立即下载开关，True/False
verify	认证SSL证书开关，True/False
cert	本地SSL证书路径

属性：‘r.request.’ + headers,url

request.get(url, params=None, **kwargs)

request.head(url, **kwargs)

request.post(url, data=None，json=None, **kwargs)

request.put(url, data=None, **kwargs)

request.patch(url, data=None, **kwargs)局部修改

request.delete(url, **kwargs)

协议

问题

规模：

小规模，网页 Requests

中规模，网站，系列网站，Scrapy

大规模，定制开发，全网
```
 限制：来源审查（User-Agent），Robots协议
```
Robots协议

在根目录：/robots.txt
```
User-agent: *
Disallow: /
```
遵守方式：爬虫自动识别或先看看（类人行为可考虑不遵守）

import requests
url = 'https://www.amazon.cn/gp/product/B01M8L5Z2Y'
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print('Fail')
    

# 错误分析
r.encoding = r.apparent_encoding
r.request.headers


# 假装是个浏览器
import requests
url = 'https://www.amazon.cn/gp/product/B01M8L5Z2Y'
try:
    kv = {
   'user-agent': 'Mozilla/5.0'}
    r = requests.get(url, headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print('Fail')

浏览器关键词

import requests
kw = {
   'wd':'python'}
kv = {
   'user-agent': 'Mozilla/5.0'}
r = requests.get('http://www.baidu.com/s', params=kw, headers=kv)
r.status_code
r.request.url

图片爬取：确定文件格式

import requests
path = r'C:\Users\Desktop'
url

最低0.47元/天解锁文章

Detective_0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫: requests, Beautiful Soup, 正则

requests库：请求robots.txt：爬虫排除标准Beautiful Soup：解析HTML页面re：正则表达式Scrapy框架IDEIDLE：自带SublimeText：专业Wing：调试功能，多人开发Visual Studio & PTVS, PyCharm数据分析，科学计算：Canop, AnacondaRequest库r = requests.request(url, params=None, **kwargs)Request——Response 1.
复制链接

扫一扫