网络数据采集---urllib库和requests库

网络数据采集之urllib库

一、urllib

urllib简介

urllib是python中一个功能强大用于操作URL,并在爬虫时经常用到的一个基础库,无需额外安装,默认已经安装到python中。

官方文档地址:请点击这里

urllib的四个子模块

Python中urllib库包括以下四个子模块,urllib库是python的内置HTTP请求库,urllib库是一个运用于URL的包(urllib is a package that collects several modules for working with URLs)

  • urllib.request: 请求模块。用于访问和读取URLS(urllib.request for opening and reading URLs),就像在浏览器里输入网址然后回车一样,只需要给这个库方法传入URL和其他参数就可以模拟实现这个过程。
  • urllib.error :异常处理模块。包括了所有urllib.request导致的异常(urllib.error containing the exceptions raised by urllib.request),我们可以捕捉这些异常,然后进行重试或者其他操作以确保程序不会意外终止。
  • urllib.parse:解析模块。用于解析URLS(urllib.parse for parsing URLs),提供了很多URL处理方法,比如拆分、解析、合并、编码。
  • urllib.robotparser:robots.txt解析模块。用于解析robots.txt文件(urllib.robotparser for parsing robots.txt files),然后判断哪些网站可以爬,哪些网站不可以爬。

使用urllib打开网页

最基本的方法打开网页—urlopen
urlopen进行简单的网站请求,不支持复杂功能如验证、cookie和其他HTTP高级功能,若要支持这些功能必须使用build_opener()函数返回的OpenerDirector对象。

# 最基本的方法打开网页
from urllib.request import urlopen

# 通过get方法请求url
with urlopen("http://www.baidu.com") as f:
	# 默认返回的页面类型是bytes类型,bytes类型转换为字符串,decode方法
	print(f.read(300).decode('utf-8')

携带data参数打开网页

# 携带data参数打开网页
from urllib.parse import urlencode
from urllib.request import urlopen

data = bytes(urlencode({'word': 'hello'}), encoding='utf-8')
response = urlopen('http://httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

User-Agent伪装后请求网站

很多网站为了防止程序爬虫爬网站照成网站瘫痪,会需要携带一些headers头部信息才能访问, 我们可以通过urllib.request.Request对象指定请求头部信息。

User-Agent = 'Mozilla/4.0(compatibe;MSIE 5.5;Windows NT)'
# 封装请求头部信息,模拟浏览器向服务器发起请求
request = Request("http://httpbin.org/post", headers={'User-Agent':User-Agent})
with urlopen(request) as f:
	# 默认返回的页面信息是bytes类型,bytes类型转换为字符串用decode方法
	print(f.read(300).decode('utf-8'))

通过构建Request打开网页

from urllib.request import Request
from urllib.request import urlopen
from urllib.parse import urlencode

url = 'http://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0(compatibe;MSIE 5.5;Windows NT)',
    'Host': 'httpbin.org'
}
dict = {'name': 'Germey'}
data = bytes(urlencode(dict), encoding='utf8')
req = Request(url=url, data=data, headers=headers, method='POST')
response = urlopen(req)
print(response.read().decode('utf-8'))

网络数据采集之requests库

requests官方网址:点击这里
Requests is an elegant and simple HTTP library for Python, built for human beings.
相比较urllib模块,requests模块要简单很多,但是需要单独安装:

  • linux系统下的安装: pip install requests

requests库的八大主要方法:

方法描述
requests.request( )构造一个请求,支持以下各种方法
requests.get( )向html页面提交get请求的方法,对应于HTTP的GET
requests.post( )向html页面提交post请求的方法,对应于HTTP的POST
requests.head( )获取html头部信息的主要方法,对应于HTTP的HEAD
requests.put( )向html网页提交put请求的方法,对应于HTTP的PUT
requests.options( )向html页面提交options请求的方法,对应于HTTP的OPTIONS
requests.patch( )向html网页提交局部修改的请求,对应于HTTP的PATCH
requests.delete( )向html网页提交删除的请求,对应于HTTP的DELETE

请求之后,服务器通过response返回数据,Response对象包含服务器返回的所有信息,也包含请求的Request信息。

response具体参数如下图:

属性说明
r.status_codeHTTP请求的返回状态,200表示成功,404表示失败
r.textHTTP响应内容的字符串形式,即url对应的页面内容
r.content( )HTTP响应内容的二进制形式
r.encoding从HTTP header中猜测响应内容的编码格式
r.apparent_encoding从内容中分析出响应内容的编码格式(备选编码格式)

防止反爬1:添加headers–UserAgent

有些网站访问时必须带有浏览器等信息,如果不传入headers就会报错。

UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持,可谓防反爬利器。

# 首先导入UserAgent:
from fake_useragent import UserAgent

def add_headers():
	user_agent = UserAgent().random
	# 将请求头部添加到
	response = requests.get('http://127.0.0.1:5000', headers={'User-Agent':user_agent})
	print(response)

if __name__ == '__main__':
    add_headers()

防止反爬2:IP代理设置–proxies

在进行爬虫爬取时,有时候爬虫会被服务器屏蔽掉,这时候采用的方法主要有降低访问时间,通过代理IP访问。IP可以从网上抓取,或者某宝购买。

proxies = { "http": "http://127.0.0.1:9743", "https": "https://127.0.0.1:9743",}
 response = requests.get(url, proxies=proxies)

useragent和IP代理的结合使用:

import requests
from fake_useragent import UserAgent

us = UserAgent()
proxies = {
    'http':'http://163.125.75.233:9797',
    'https':'https://182.92.220.212:8000'
}

response = requests.get('http://47.92.255.98:8000',
                        headers={'User-Agent':us.random},
                        proxies=proxies)
print(response)
print(response.text)

爬虫应用小案例

京东商品信息爬取:

from urllib.error import HTTPError

import requests
from colorama import Fore
from fake_useragent import UserAgent

def down_page(url, params=None):
    try:
        ua = UserAgent()
        headers = {'User-Agent':ua.random}
        response = requests.get(url, params, headers=headers)
    except HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败:%s' %(url, e.reason))
        return None
    else:
        return response.content

def down_file(content=b'', filename='hello.html'):
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN + '[+]写入文件%s成功' %(filename))

if __name__ == '__main__':
    url = 'https://item.jd.com/100012015170.html'
    html = down_page(url)
    down_file(content=html)

360搜索关键字提交

from urllib.error import HTTPError

import requests
from colorama import Fore
from fake_useragent import UserAgent

def down_page(url, params):
    try:
        ua = UserAgent()
        headers = {
            'User-Agent':ua.random
        }
        response = requests.get(url, params, headers=headers)
    except HTTPError as e:
        print(Fore.RED + '[-]爬取网页%s失败:%s' %(url, e.reason))
        return None
    else:
        return response.content  # 二进制文件

def down_file(content=b'',filename='python.html'):
    with open(filename, 'wb') as f:
        f.write(content)
        print(Fore.GREEN + '[+]关键字写入文件%s成功......'%(filename))

if __name__ == '__main__':
    url = 'https://www.so.com/s'
    params = {
        'q' : 'python'
    }
    down_file(content = down_page(url, params))

response = requests.get(url, params, headers=headers) 这里参数会自动填入访问的url网页,进行关键字查询。

相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页