网络数据采集---urllib库和requests库

最新推荐文章于 2024-07-03 09:21:13 发布

CodingAndCoCoding

最新推荐文章于 2024-07-03 09:21:13 发布

阅读量756

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/wangtuo1115/article/details/105688906

版权

爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

网络数据采集之urllib库

一、urllib

urllib简介

urllib是python中一个功能强大用于操作URL，并在爬虫时经常用到的一个基础库，无需额外安装，默认已经安装到python中。

官方文档地址：请点击这里

urllib的四个子模块

Python中urllib库包括以下四个子模块，urllib库是python的内置HTTP请求库，urllib库是一个运用于URL的包（urllib is a package that collects several modules for working with URLs）

urllib.request：请求模块。用于访问和读取URLS（urllib.request for opening and reading URLs），就像在浏览器里输入网址然后回车一样，只需要给这个库方法传入URL和其他参数就可以模拟实现这个过程。
urllib.error ：异常处理模块。包括了所有urllib.request导致的异常（urllib.error containing the exceptions raised by urllib.request），我们可以捕捉这些异常，然后进行重试或者其他操作以确保程序不会意外终止。
urllib.parse：解析模块。用于解析URLS（urllib.parse for parsing URLs），提供了很多URL处理方法，比如拆分、解析、合并、编码。
urllib.robotparser：robots.txt解析模块。用于解析robots.txt文件（urllib.robotparser for parsing robots.txt files），然后判断哪些网站可以爬，哪些网站不可以爬。

使用urllib打开网页

最基本的方法打开网页—urlopen
urlopen进行简单的网站请求，不支持复杂功能如验证、cookie和其他HTTP高级功能，若要支持这些功能必须使用build_opener()函数返回的OpenerDirector对象。

# 最基本的方法打开网页
from urllib.request import urlopen

# 通过get方法请求url
with urlopen("http://www.baidu.com") as f:
	# 默认返回的页面类型是bytes类型，bytes类型转换为字符串，decode方法
	print(f.read(300).decode('utf-8')

携带data参数打开网页

# 携带data参数打开网页
from urllib.parse import urlencode
from urllib.request import urlopen

data = bytes(urlencode({'word': 'hello'}), encoding='utf-8')
response = urlopen('http://httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

User-Agent伪装后请求网站

很多网站为了防止程序爬虫爬网站照成网站瘫痪，会需要携带一些headers头部信息才能访问, 我们可以通过urllib.request.Request对象指定请求头部信息。

User-Agent = 'Mozilla/4.0(compatibe;MSIE 5.5;Windows NT)'
# 封装请求头部信息，模拟浏览器向服务器发起请求
request = Request("http://httpbin.org/post", headers={'User-Agent':User-Agent})
with urlopen(request) as f:
	# 默认返回的页面信息是bytes类型，bytes类型转换为字符串用decode方法
	print(f.read(300).decode('utf-8'))

通过构建Request打开网页

from urllib.request import Request
from urllib.request import urlopen
from urllib.parse import urlencode

url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0(compatibe;MSIE 5.5;Windows NT)',
    'Host': 'httpbin.org'
}
dict = {'name': 'Germey'}
data = bytes(urlencode(dict), encoding='utf8')
req = Request(url=url, data=data, headers=headers, method='POST')
response = urlopen(req)
print(response.read().decode('utf-8'))

网络数据采集之requests库

requests官方网址：点击这里
Requests is an elegant and simple HTTP library for Python, built for human beings.
相比较urllib模块，requests模块要简单很多，但是需要单独安装：

linux系统下的安装： pip install requests

requests库的八大主要方法：

方法	描述
requests.request( )	构造一个请求，支持以下各种方法
requests.get( )	向html页面提交get请求的方法，对应于HTTP的GET
requests.post( )	向html页面提交post请求的方法，对应于HTTP的POST
requests.head( )	获取html头部信息的主要方法，对应于HTTP的HEAD
requests.put( )	向html网页提交put请求的方法，对应于HTTP的PUT
requests.options( )	向html页面提交options请求的方法，对应于HTTP的OPTIONS
requests.patch( )	向html网页提交局部修改的请求，对应于HTTP的PATCH
requests.delete( )	向html网页提交删除的请求，对应于HTTP的DELETE

请求之后，服务器通过response返回数据，Response对象包含服务器返回的所有信息，也包含请求的Request信息。

response具体参数如下图：

属性	说明
r.status_code	HTTP请求的返回状态，200表示成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.content( )	HTTP响应内容的二进制形式
r.encoding	从HTTP header中猜测响应内容的编码格式
r.apparent_encoding	从内容中分析出响应内容的编码格式（备选编码格式）

防止反爬1：添加headers–UserAgent

有些网站访问时必须带有浏览器等信息，如果不传入headers就会报错。

UserAgent是识别浏览器的一串字符串，相当于浏览器的身份证，在利用爬虫爬取网站数据时，频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持，可谓防反爬利器。

# 首先导入UserAgent:
from fake_useragent import UserAgent

def add_headers():
	user_agent = UserAgent().random
	# 将请求头部添加到
	response = requests.get('http://127.0.0.1:5000', headers={'User-Agent':user_agent})
	print(response)

if __name__ == '__main__':
    add_headers()

防止反爬2：IP代理设置–proxies

在进行爬虫爬取时，有时候爬虫会被服务器屏蔽掉，这时候采用的方法主要有降低访问时间，通过代理IP访问。IP可以从网上抓取，或者某宝购买。

proxies = { "http": "http://127.0.0.1:9743", "https": "https://127.0.0.1:9743",}
 response = requests.get(url, proxies=proxies)

useragent和IP代理的结合使用：

import requests
from fake_useragent import UserAgent

us = UserAgent()
proxies = {
    'http':'http://163.125.75.233:9797',
    'https':'https://182.92.220.212:8000'
}

response = requests.get('http://47.92.255.98:8000',
                        headers={'User-Agent':us.random},
                        proxies=proxies)
print(response)
print(response.text)

爬虫应用小案例

京东商品信息爬取：

from urllib.error import HTTPError

import requests
from colorama import Fore
from fake_useragent import UserAgent

def down_page(url, params=None):
    try:
        ua = UserAgent()
        headers = {'User-Agent':ua.random}
        response = requests.get(url, params, headers=headers)
    except HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败：%s' %(url, e.reason))
        return None
    else:
        return response.content

def down_file(content=b'', filename='hello.html'):
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN + '[+]写入文件%s成功' %(filename))

if __name__ == '__main__':
    url = 'https://item.jd.com/100012015170.html'
    html = down_page(url)
    down_file(content=html)

360搜索关键字提交

from urllib.error import HTTPError

import requests
from colorama import Fore
from fake_useragent import UserAgent

def down_page(url, params):
    try:
        ua = UserAgent()
        headers = {
            'User-Agent':ua.random
        }
        response = requests.get(url, params, headers=headers)
    except HTTPError as e:
        print(Fore.RED + '[-]爬取网页%s失败：%s' %(url, e.reason))
        return None
    else:
        return response.content  # 二进制文件

def down_file(content=b'',filename='python.html'):
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN + '[+]关键字写入文件%s成功......'%(filename))

if __name__ == '__main__':
    url = 'https://www.so.com/s'
    params = {
        'q' : 'python'
    }
    down_file(content = down_page(url, params))

response = requests.get(url, params, headers=headers) 这里参数会自动填入访问的url网页，进行关键字查询。

CodingAndCoCoding

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网络数据采集---urllib库和requests库

网络数据采集之urllib库一、urlliburllib简介urllib是python中一个功能强大用于操作URL，并在爬虫时经常用到的一个基础库，无需额外安装，默认已经安装到python中。官方文档地址：请点击这里urllib的四个子模块Python中urllib库包括以下四个子模块，urllib库是python的内置HTTP请求库，urllib库是一个运用于URL的包（urllib...
复制链接

扫一扫

专栏目录