python学习笔记（四）：网络爬虫基础

最新推荐文章于 2021-05-07 10:08:31 发布

三七水

最新推荐文章于 2021-05-07 10:08:31 发布

阅读量293

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/qq_43575159/article/details/103918935

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

网络爬虫

爬虫	一种按照一定的规则，自动抓取万维网信息的程序或脚本。
用户获取网络数据的方式	浏览器提交请求，下载网页代码，解析/渲染成页面。
爬虫的方式	是模拟浏览器发送请求，下載网页代码，只提取有用的数据存放于数据库或文件中。
区别	爬虫程序只提取网页代码中对我们有用的数据，并且爬虫抓取速度快，量级大。

网络爬虫的规模

小规模	中规模	大规模
数据量小	数据规模较大	搜索引擎
爬取速度不敏感	爬取速度敏感	爬取速度关键
爬取网页	爬取网站	爬取全网
requests库	scrapy库	定制开发

网络爬虫的限制

来源审查： 判断User-Agent进行限制，检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。
robots协议： 告知所有爬虫网站的爬取策略，要求爬虫遵守。可在所爬取网站根目录后加 /robots.txt 查看文件。

requests库

函数	描述
request()	构造一个请求
get()	获取HTML网页的主要内容，对应于HTTP的GET
head()	获取HTML网页的头信息，对应于HTTP的HEAD
post()	向HTML网页提交POST请求，对应于HTTP的POST
put()	向HTML网页提交PUT请求，对应于HTTP的PUT
patch	向HTML网页提交局部修改请求，对应于HTTP的PATCH
delete()	向HTML网页提交删除请求，对应于HTTP的DELETE

r = requests.get(url)
构造了一个向服务器请求资源的 Request 对象
返回了一个包含服务器资源的 Response 对象

属性	描述
r.status_code	HTTP的返回状态，200表示成功
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.endoding	从HTTP header中猜测的响应内容编码方式
r.apperent_encoding	从内容中分析出的响应内容编码方式
r.content	HTTP响应内容的二进制形式

爬取网页的通用代码框架

def getHTMLText(url):
	try:
		r = requests.get(url, timeout=30)
		r.raise_for_status()
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return "产生异常"

BeautifulSoup4库

使用requests 库获取HTML 页面并将其转换成字符串后，需要进一步解析 HTML页面格式，提取有用信息，这需要处理HTML 和XML 的函数库。
beautifulsoup4 库采用面向对象思想实现，简单说，它把每个页面当做一个对象，调用对象的属性（即包含的内容），或者调用方法（即处理函数）。
在这里插入图片描述
用from…import 方式从库中直接引用BeautifulSoup 类，或直接 import bs4，方法如下。

from bs4 import BeautifulSoup
import bs4

beautifulsoup4库第三方库主页： https://www.crummy.com/software/BeautifulSoup/

BeautidulSoup4库解析器	使用方式	条件
bs4的HTML解析器	BeautifulSoup(mk, ‘html.parser’)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk, ‘lxml’)	pip install lxml
lxml的XML解析器	BeautifulSoup(mk, ‘xml’)	pip install xml
html5lib的解析器	BeautifulSoup(mk, ‘html5lib’)	pip install html5lib

import requests 
from bs4 import BeautifulSoup 
url="http://www.baidu.com"
r=requests.get(url)
r.encoding=r.apparent_encoding
soup=BeautifulSoup(r.text,'html.parser')
type(soup)

标签对象的常用属性	类型	描述
name	字符串	标签的名字，例如 div
attrs	字典	包含了原来页面Tag中的所有属性，比如 href
contents	列表	这个标签下所有子标签的内容
string	字符串	Tag所包围的文本，网页中真实的文字

下行遍历方法	描述
.contents	子结点的列表，将 <tag> 的所有子结点存入列表
.children	子结点的迭代类型，与contents类似，用于循环遍历子结点
.descendants	子孙结点的迭代类型，包含所有子孙节点，用于循环遍历

上行遍历方法	描述
.parent	节点的父标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈标签

简单爬虫实例

从 http://www.fortunechina.com/fortune500/c/2019-07/10/content_337536.htm 网址爬取2019年中国前500强排行榜并绘制柱状图。

import requests
import json
import csv
import pandas as pdfrom bs4 
import BeautifulSoup
import matplotlib.pyplot as pltimport numpy as np
from locale import *

try:    r = requests.get("http://www.fortunechina.com/fortune500/c/2019-07/10/content_337536.htm")

soup = BeautifulSoup(r.text, 'html.parser')
soup.tbody.find_all('tr')
allUniv = []titleUniv = []  
for tr in data:
  singleUniv = []
  lname = tr.find_all('a')
  ltd = tr.find_all('td')    
  for td in ltd:        
  	singleUniv.append(td.string)    
  for name in lname:        
  	singleUniv[2] = name.string    
  allUniv.append(singleUniv)

dataUniv = []
for i in allUniv:
    i = i[2:]    
    dataUniv.append(i)
form = pd.DataFrame(dataUniv)
file_name = 'form.csv'
form.to_csv(file_name ,encoding='utf-8_sig')#存储数据到csv文件并防止生成乱码
form = pd.DataFrame(dataUniv[:10])

plt.rcParams['font.sans-serif']=['Simhei'] 
plt.rcParams['axes.unicode_minus']=Falseform.drop([0], axis=1)
lname = [i for i in form[0]]
turnover = [i for i in form[1]]profit = [i for i in form[2]]

setlocale(LC_NUMERIC, 'English_US')#处理数据中所含的千分号d
ata1 = []
for d in turnover:    
	data1.append(atof(d))
data2 = []
for d in profit:    
	data2.append(atof(d))

index = np.arange(len(form[0]))#绘制柱状图
plt.figure(figsize=(20, 10))
width = 0.15plt.title('中国十大企业营业额和营业利润柱状图', fontsize = 20)
plt.bar(index, data1, width = width, color = 'c', align = 'center', label = '营业额',tick_label = lname, alpha = 0.5)
plt.bar(index + width, data2, width = width, color = 'r', align = 'center', label = '营业利润', alpha = 0.5)
plt.xticks(rotation=-10)
plt.legend()
plt.show()