Python数据分析与机器学习-Seaborn

最新推荐文章于 2024-05-17 09:18:34 发布

未来，值得期待

最新推荐文章于 2024-05-17 09:18:34 发布

阅读量1.3k

点赞数 1

分类专栏： python 文章标签： Python数据分析与机器学习

本文链接：https://blog.csdn.net/adam_wzs/article/details/78926183

版权

python 专栏收录该内容

30 篇文章 2 订阅

订阅专栏

源码下载地址：

http://download.csdn.net/download/adam_zs/10178759

import seaborn as sns
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

'''seaborn是在matplotlib上面进行封装'''


def sinplot(flip=1):
    x = np.linspace(0, 14, 100)
    for i in range(1, 7):
        plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)


# sinplot()
# plt.show()

# sns.set()  # 设置样式,默认样式
# sinplot()
# plt.show()

'''
5种主题风格
darkgrid 黑色格子
whitegrid 白色格子
dark 黑色
white 白色
ticks 带刻度的
'''
data = np.random.normal(size=(20, 6)) + np.arange(6) / 2

# boxplot盒图
# sns.set_style("whitegrid") #设置风格
# # print(np.random.normal(size=(20, 6))) #20行 6列
# sns.boxplot(data=data)
# plt.show()

# sns.set_style("dark")
# sinplot()
# plt.show()

# sns.set_style("white")
# sinplot()
# plt.show()

# sns.set_style("ticks") #在所有轴上添加刻度线
# sinplot()
# plt.show()

# 只显示x轴y轴
# sinplot()
# sns.despine() #去掉上方和右边的刻度线
# plt.show()

# sns.violinplot(data)
# sns.despine(offset=10)#画的图距离轴线的距离
# plt.show()

# sns.set_style("whitegrid")
# sns.boxplot(data=data, palette="deep")  # palette调色板
# sns.despine(left=True) #left=True 把左边的轴隐藏起来
# plt.show()

# with sns.axes_style("darkgrid"):
#     plt.subplot(211)
#     sinplot() #with里面一种风格,with外边一种风格
# plt.subplot(212)
# sinplot(-1)
# plt.show()

# sns.set() #全部用默认值
# sns.set_context("paper") #设置整体的风格
# plt.figure(figsize=(8, 6))
# sinplot()
# plt.show()

# sns.set_context("talk")
# plt.figure(figsize=(8, 6))
# sinplot()
# plt.show()

# sns.set_context("poster")
# plt.figure(figsize=(8, 6))
# sinplot()
# plt.show()

# font_scale除了图之外字体大小 lines.linewidth线的粗细
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
sinplot()
plt.show()

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

'''
调色板
颜色很重要
color_palette()能传入任何Matplotlib所支持的颜色
color_palette()不写参数则默认颜色
set_palette()设置所有图的颜色
'''

# current_palette = sns.color_palette()
# sns.palplot(current_palette)
# plt.show()

'''
圆形画板
当你有六个以上的分类要区分时，最简单的方法就是在一个圆形的颜色空间中画出均匀间隔的颜色(这样的色调会保持亮度和饱和度不变)。这是大多数的当他们需要使用比当前默认颜色循环中设置的颜色更多时的默认方案。
最常用的方法是使用hls的颜色空间，这是RGB值的一个简单转换。
'''
# sns.palplot(sns.color_palette("hls", 8)) #hls是默认颜色空间,把颜色分为8种
# plt.show()

# data = np.random.normal(size=(20, 8)) + np.arange(8) / 2
# sns.boxplot(data=data, palette=sns.color_palette("hls", 8)) #上边先指定color_palette，这里使用
# plt.show()

'''
hls_palette()函数来控制颜色的亮度和饱和
l-亮度 lightness
s-饱和 saturation
'''
# sns.palplot(sns.hls_palette(8, l=.7, s=.9))
# plt.show()

# sns.palplot(sns.color_palette("Paired",8)) #Paired调色板是一对一对的,总共4对
# plt.show()

'''
使用xkcd颜色来命名颜色
xkcd包含了一套众包努力的针对随机RGB色的命名。产生了954个可以随时通过xdcd_rgb字典中调用的命名颜色。
'''
# plt.plot([0, 1], [0, 1], sns.xkcd_rgb["pale red"], lw=3) #lw设定线宽
# plt.plot([0, 1], [0, 2], sns.xkcd_rgb["medium green"], lw=3)
# plt.plot([0, 1], [0, 3], sns.xkcd_rgb["denim blue"], lw=3)
# plt.show()

# colors = ["windows blue", "amber", "greyish", "faded green", "dusty purple"]
# sns.palplot(sns.xkcd_palette(colors))
# plt.show()

'''
连续色板
色彩随数据变换，比如数据越来越重要则颜色越来越深
'''
# sns.palplot(sns.color_palette("Blues"))
# plt.show()

'''如果想要翻转渐变(由深到浅)，可以在面板名称中添加一个_r后缀'''
# sns.palplot(sns.color_palette("BuGn_r"))
# plt.show()

'''
cubehelix_palette()调色板
色调线性变换
'''
# sns.palplot(sns.color_palette("cubehelix", 8))
# sns.palplot(sns.cubehelix_palette(8, start=.5, rot=-.75)) #start rot指定颜色区间
# sns.palplot(sns.cubehelix_palette(8, start=.75, rot=-.150))

'''light_palette(从浅到深)  和dark_palette(从深到浅) 调用定制连续调色板'''
# sns.palplot(sns.light_palette("green"))
# sns.palplot(sns.dark_palette("purple"))
# sns.palplot(sns.light_palette("navy", reverse=True))


x, y = np.random.multivariate_normal([0, 0], [[1, -.5], [-.5, 1]], size=300).T
pal = sns.dark_palette("green", as_cmap=True)
sns.kdeplot(x, y, cmap=pal)
plt.show()

# sns.palplot(sns.light_palette((210, 90, 60), input="husl"))

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats, integrate
import seaborn as sns

sns.set(color_codes=True)
# 生成高斯数据
np.random.seed(sum(map(ord, "distributions")))  # 正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）

# 直方图、柱形图
x = np.random.normal(size=100)  # 标准正态分布

# sns.distplot(x, kde=False) #kde核密度估计
# plt.show()

# sns.distplot(x, bins=20, kde=False)
# plt.show()

# x = np.random.gamma(6, size=200)
# sns.distplot(x, kde=False, fit=stats.gamma) #fit统计指标
# plt.show()

'''根据均值和协方差生成数据'''
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])  # data 200行2列的数据
# print(df)

'''单特征用直方图、多特征用散点图'''

'''观测两个变量之间的分布关系最好用散点图'''
# jointplot 绘制散点图和每个变量直方图
# sns.jointplot(x="x", y="y", data=df)
# plt.show()

# hex图,用颜色差异显示那里数据量大
# x, y = np.random.multivariate_normal(mean, cov, 1000).T
# with sns.axes_style("white"):
#     sns.jointplot(x=x, y=y, kind="hex", color="k")
# plt.show()

# 用内置的iris(鸢尾花)数据集
# pairplot:每两个数据的特征对比
iris = sns.load_dataset("iris")
sns.pairplot(iris)
plt.show()

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

np.random.seed(22)
x = np.linspace(0, 15, 31)
data = np.sin(x) + np.random.rand(10, 31) + np.random.randn(10, 1)

# print (data)
# ax = sns.tsplot(data=data)
# plt.show()

gammas = sns.load_dataset("gammas")
print(gammas.head(30))

ax = sns.tsplot(time="timepoint", value="BOLD signal",
                unit="subject", condition="ROI",
                data=gammas)

ax = sns.tsplot(data=data)

ax = sns.tsplot(data=data, err_style="ci_bars", color="g")

ax = sns.tsplot(data=data, err_style="ci_bars", interpolate=False)

ax = sns.tsplot(data=data, estimator=np.median)

ax = sns.tsplot(data=data, err_style="boot_traces", n_boot=500)

ax = sns.tsplot(data=data, err_style="unit_traces")

import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

sns.set(color_codes=True)
np.random.seed(sum(map(ord, "regression")))
tips = sns.load_dataset("tips")  # 内置数据集tips
print(tips.head())

'''regplot()和lmplot()都可以绘制回归关系,推荐regplot()'''
'''regplot 拟合直线'''
# sns.regplot(x="total_bill", y="tip", data=tips)
# plt.show()
'''
total_bill:消费金额
tip:给的小费
sex:性别
smoker:抽烟者
day:星期几
time:午饭、晚饭
size:几人用餐

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
'''

# sns.lmplot(x="total_bill", y="tip", data=tips);
# plt.show()

# sns.regplot(data=tips,x="size",y="tip")
# plt.show()

# sns.regplot(x="size", y="tip", data=tips, x_jitter=.05) #x_jitter x值抖动+-0.05

anscombe = sns.load_dataset("anscombe")
sns.regplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
            ci=None, scatter_kws={"s": 100})

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           ci=None, scatter_kws={"s": 80})

sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           order=2, ci=None, scatter_kws={"s": 80});

sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips);

sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips,
           markers=["o", "x"], palette="Set1");

sns.lmplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips);

sns.lmplot(x="total_bill", y="tip", hue="smoker",
           col="time", row="sex", data=tips);

f, ax = plt.subplots(figsize=(5, 5))
sns.regplot(x="total_bill", y="tip", data=tips, ax=ax);

'''
col_wrap：“Wrap” the column variable at this width, so that the column facets span multiple rows
size ：Height (in inches) of each facet
'''
sns.lmplot(x="total_bill", y="tip", col="day", data=tips,
           col_wrap=2, size=4);

sns.lmplot(x="total_bill", y="tip", col="day", data=tips,
           aspect=.8);

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid", color_codes=True)
np.random.seed(sum(map(ord, "categorical")))

titanic = sns.load_dataset("titanic")  # 泰克尼克号
tips = sns.load_dataset("tips")  # 吃饭小费
iris = sns.load_dataset("iris")  # 鸢尾花

'''stripplot不建议使用'''
sns.stripplot(x="day", y="total_bill", data=tips);
sns.stripplot(x="day", y="total_bill", data=tips, jitter=True)  # jitter防止数据重叠,进行数据抖动

sns.swarmplot(x="day", y="total_bill", data=tips)
# hue在那个特征进行划分,用颜色区分
sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips)

sns.swarmplot(x="total_bill", y="day", hue="time", data=tips);

'''
盒图
IQR即统计学概念四分位距，第一/四分位与第三/四分位之间的距离
N = 1.5IQR 如果一个值>Q3+N或　<　Ｑ1-N,则为离群点(不太正常的数据)
'''
sns.boxplot(x="day", y="total_bill", hue="time", data=tips);

'''violinplot小提琴图'''
sns.violinplot(x="total_bill", y="day", hue="time", data=tips);
# split 在小提琴图左边右边指定属性
sns.violinplot(x="day", y="total_bill", hue="sex", data=tips, split=True);

'''violinplot,swarmplot 两个图合并在一起'''
sns.violinplot(x="day", y="total_bill", data=tips, inner=None)
sns.swarmplot(x="day", y="total_bill", data=tips, color="w", alpha=.5)  # alpha透明程度

'''barplot条形图'''
sns.barplot(x="sex", y="survived", hue="class", data=titanic);

'''pointplot点图,可以更好的描述变化差异'''
sns.pointplot(x="sex", y="survived", hue="class", data=titanic);

sns.pointplot(x="class", y="survived", hue="sex", data=titanic,
              palette={"male": "g", "female": "m"},  # palette设置颜色
              markers=["^", "o"], linestyles=["-", "--"]);  # markers点的样式 linestyles线形

'''boxplot h :横着画盒图 宽形数据'''
sns.boxplot(data=iris, orient="h");

'''factorplot可以画多个图,多层面板分类图'''
sns.factorplot(x="day", y="total_bill", hue="smoker", data=tips)

sns.factorplot(x="day", y="total_bill", hue="smoker", data=tips, kind="bar")

sns.factorplot(x="day", y="total_bill", hue="smoker",
               col="time", data=tips, kind="swarm")

sns.factorplot(x="time", y="total_bill", hue="smoker",
               col="day", data=tips, kind="box", size=4, aspect=.5)

'''
Parameters：
x,y, 数据集变量 hue:按照什么指标划分
date 数据集 数据集名
row,col 更多分类变量进行平铺显示 变量名
col_wrap 每行的最高平铺数 整数
estimator 在每个分类中进行矢量到标量的映射 矢量
ci 置信区间 浮点数或None
n_boot 计算置信区间时使用的引导迭代次数 整数
units 采样单元的标识符，用于执行多级引导和重复测量设计 数据变量或向量数据
order, hue_order 对应排序列表 字符串列表
row_order, col_order 对应排序列表 字符串列表
kind可选：
    point 默认, bar 柱形图, count 频次, box 箱体, violin 提琴, strip 散点，swarm 分散点 
    size 每个面的高度（英寸） 标量 aspect 纵横比 标量 orient 方向 "v"/"h" color 颜色 matplotlib颜色 
    palette 调色板 seaborn颜色色板或字典 legend hue的信息面板 True/False legend_out 是否扩展图形，
    并将信息框绘制在中心右边 True/False share{x,y} 共享轴线 True/False
'''

import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt

sns.set(style="ticks")
np.random.seed(sum(map(ord, "axis_grids")))

tips = sns.load_dataset("tips")
tips.head()

g = sns.FacetGrid(tips, col="time")

g = sns.FacetGrid(tips, col="time")  # col展示的数据
g.map(plt.hist, "tip");  # plt.his条形图

g = sns.FacetGrid(tips, col="sex", hue="smoker")  # 按照颜色划分
# plt.scatter 散点图；total_bill、tip显示这两个指标;alpha透明程度
g.map(plt.scatter, "total_bill", "tip", alpha=.7)
g.add_legend();  # 添加hue类别标签

g = sns.FacetGrid(tips, row="smoker", col="time", margin_titles=True)
# fit_reg回归线,x_jitter抖动
g.map(sns.regplot, "size", "total_bill", color=".1", fit_reg=False, x_jitter=.1);

g = sns.FacetGrid(tips, col="day", size=4, aspect=.5)
g.map(sns.barplot, "sex", "total_bill");

from pandas import Categorical

ordered_days = tips.day.value_counts().index
print(ordered_days)
# Categorical类别
ordered_days = Categorical(['Thur', 'Fri', 'Sat', 'Sun'])
# row_order显示的顺序
g = sns.FacetGrid(tips, row="day", row_order=ordered_days,
                  size=1.7, aspect=4, )
g.map(sns.boxplot, "total_bill");

pal = dict(Lunch="seagreen", Dinner="gray")
g = sns.FacetGrid(tips, hue="time", palette=pal, size=5)  # palette调色板
# s圆圈大小 edgecolor边界颜色
g.map(plt.scatter, "total_bill", "tip", s=50, alpha=.7, linewidth=.5, edgecolor="white")
g.add_legend();

# marker指定标记
g = sns.FacetGrid(tips, hue="sex", palette="Set1", size=5, hue_kws={"marker": ["^", "v"]})
g.map(plt.scatter, "total_bill", "tip", s=100, linewidth=.5, edgecolor="white")
g.add_legend();

with sns.axes_style("white"):
    g = sns.FacetGrid(tips, row="sex", col="smoker", margin_titles=True, size=2.5)
g.map(plt.scatter, "total_bill", "tip", color="#334488", edgecolor="white", lw=.5);
g.set_axis_labels("Total bill (US Dollars)", "Tip");  # set_axis_labels 设置xy轴的名字
g.set(xticks=[10, 30, 50], yticks=[2, 6, 10]);  # 设置轴的取值范围
g.fig.subplots_adjust(wspace=.02, hspace=.02);  # subplots_adjust子图之间的间隔
# 设置整体的位置
# g.fig.subplots_adjust(left  = 0.125,right = 0.5,bottom = 0.1,top = 0.9, wspace=.02, hspace=.02)

iris = sns.load_dataset("iris")
g = sns.PairGrid(iris)  # PairGrid画对图
g.map(plt.scatter);

g = sns.PairGrid(iris)
g.map_diag(plt.hist)  # 对角线画的图
g.map_offdiag(plt.scatter);  # 非对角线画的图

g = sns.PairGrid(iris, hue="species")
g.map_diag(plt.hist)
g.map_offdiag(plt.scatter)
g.add_legend();

# vars 需要画的特征
g = sns.PairGrid(iris, vars=["sepal_length", "sepal_width"], hue="species")
g.map(plt.scatter);

g = sns.PairGrid(tips, hue="size", palette="GnBu_d")
g.map(plt.scatter, s=50, edgecolor="white")
g.add_legend();

import matplotlib.pyplot as plt
import numpy as np;

np.random.seed(0)
import seaborn as sns;

sns.set()
uniform_data = np.random.rand(3, 3)
print(uniform_data)

'''heatmap:热度图'''
heatmap = sns.heatmap(uniform_data)
plt.show()

# vmin vmax调色板取值区间设置
ax = sns.heatmap(uniform_data, vmin=0.2, vmax=0.5)

normal_data = np.random.randn(3, 3)
print(normal_data)
# center 设置调色板中心值
ax = sns.heatmap(normal_data, center=0)

flights = sns.load_dataset("flights")  # 航班数据
flights.head()

# 年 月 乘客数量
flights = flights.pivot("month", "year", "passengers")
print(flights)
ax = sns.heatmap(flights)

# annot实际的值添加进去 fmt字体的格式
ax = sns.heatmap(flights, annot=True, fmt="d")

# linewidths格子之间的间隙
ax = sns.heatmap(flights, linewidths=.5)

# cmap指定调色板
ax = sns.heatmap(flights, cmap="YlGnBu")

# cbar 隐藏调色板
ax = sns.heatmap(flights, cbar=False)