2分钟学会python数据分析与机器学习知识点(四)

第四节、Seaborn

1、风格
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

# def sinplot(flip=1):
#     x = np.linspace(0, 14, 100)
#     for i in range(1, 7):
#         plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)
#     plt.show()

#sinplot()

#5种主题风格
# darkgrid
# whitegrid
# dark
# white
# ticks


#箱线图
# sns.set_style("whitegrid")
# data = np.random.normal(size=(20, 6)) + np.arange(6) / 2
# sns.boxplot(data=data)
# #sns.set_style("dark")
# #sns.set_style("ticks")
# sns.boxplot(data=data, palette="deep")
# #sns.despine(left=True)
# plt.show()
#f, ax = plt.subplots()
# sns.violinplot(data)
# sns.despine(offset=10)
# plt.show()
#
#两个图画在一起的子图设置
def sinplot(flip=1):
    x = np.linspace(0, 14, 100)
    for i in range(1, 7):
        plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)

with sns.axes_style("darkgrid"):
    plt.subplot(211)
    sinplot()
plt.subplot(212)
sinplot(-1)

sns.set_context("poster")
plt.figure(figsize=(8, 6))
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
plt.show()





2、颜色
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
# 调色板
# 颜色很重要
# color_palette()能传入任何Matplotlib所支持的颜色
# color_palette()不写参数则默认颜色
# set_palette()设置所有图的颜色
# sns.set(rc={"figure.figsize": (12, 12)})
# current_palette = sns.color_palette()
# sns.palplot(current_palette)
# 圆形画板
# # 当你有六个以上的分类要区分时,最简单的方法就是在一个圆形的颜色空间中画出均匀间隔的颜色(这样的色调会保持亮度和饱和度不变)。这是大多数的当他们需要使用比当前默认颜色循环中设置的颜色更多时的默认方案。
# #
# # 最常用的方法是使用hls的颜色空间,这是RGB值的一个简单转换。
#sns.palplot(sns.color_palette("hls", 8))
# sns.palplot(sns.color_palette("hls", 14))
data = np.random.normal(size=(20, 12)) + np.arange(12) / 2
sns.boxplot(data=data,palette=sns.color_palette("hls", 12))

#sns.boxplot(data=data,palette=sns.color_palette("Blues"))
plt.show()
# hls_palette()函数来控制颜色的亮度和饱和
#
# l-亮度 lightness
# s-饱和 saturation

# sns.palplot(sns.hls_palette(8, l=.7, s=.9))
# sns.palplot(sns.color_palette("Paired",8))
# #
# # 使用xkcd颜色来命名颜色
# # xkcd包含了一套众包努力的针对随机RGB色的命名。产生了954个可以随时通过xdcd_rgb字典中调用的命名颜色。
#
# plt.plot([0, 1], [0, 1], sns.xkcd_rgb["pale red"], lw=3)
# plt.plot([0, 1], [0, 2], sns.xkcd_rgb["medium green"], lw=3)
# plt.plot([0, 1], [0, 3], sns.xkcd_rgb["denim blue"], lw=3)
# plt.show()
#
#
# colors = ["windows blue", "amber", "greyish", "faded green", "dusty purple"]
# sns.palplot(sns.xkcd_palette(colors))
# #
# # 连续色板
# # 色彩随数据变换,比如数据越来越重要则颜色越来越深
#
# sns.palplot(sns.color_palette("Blues"))
#
# #如果想要翻转渐变,可以在面板名称中添加一个_r后缀
#
# sns.palplot(sns.color_palette("BuGn_r"))
#
#
# # cubehelix_palette()调色板
# # 色调线性变换
#
# sns.palplot(sns.color_palette("cubehelix", 8))
# sns.palplot(sns.cubehelix_palette(8, start=.5, rot=-.75))
# sns.palplot(sns.cubehelix_palette(8, start=.75, rot=-.150))
# plt.show()
#
# #light_palette() 和dark_palette()调用定制连续调色板
# sns.palplot(sns.light_palette("green"))
# sns.palplot(sns.dark_palette("purple"))
# sns.palplot(sns.light_palette("navy", reverse=True))
#
# x, y = np.random.multivariate_normal([0, 0], [[1, -.5], [-.5, 1]], size=300).T
# pal = sns.dark_palette("green", as_cmap=True)
# sns.kdeplot(x, y, cmap=pal);
#
# sns.palplot(sns.light_palette((210, 90, 60), input="husl"))
# plt.show()
3、单变量分析
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import seaborn as sns


#
# sns.set(color_codes=True)
# np.random.seed(sum(map(ord, "distributions")))

# x = np.random.normal(size=100)
# # sns.distplot(x,kde=False)
# # plt.show()
# #
# # sns.distplot(x, bins=20, kde=False)
# # plt.show()


#数据分布情况
#
# x = np.random.gamma(6, size=200)
# sns.distplot(x, kde=False, fit=stats.gamma)
# plt.show()


#第一步:根据均值和协方差生成数据
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])
print(df)


#第二步:观测两个变量之间的分布关系最好用散点图
sns.jointplot(x="x", y="y", data=df);
plt.show()



x, y = np.random.multivariate_normal(mean, cov, 1000).T
with sns.axes_style("white"):
    sns.jointplot(x=x, y=y, color="k")

iris = sns.load_dataset("iris")

sns.pairplot(iris)
plt.show()

4、多变量分析
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="whitegrid", color_codes=True)

np.random.seed(sum(map(ord, "categorical")))
titanic = sns.load_dataset("titanic")
tips = sns.load_dataset("tips")
iris = sns.load_dataset("iris")

#sns.stripplot(x="day", y="total_bill", data=tips);
#重叠是很常见的现象,但是重叠影响我观察数据的量了
#sns.stripplot(x="day", y="total_bill", data=tips, jitter=True)
#plt.show()

#像一个树的画图均匀一些
# sns.swarmplot(x="day", y="total_bill", data=tips)
#plt.show()
#sns.swarmplot(x="day", y="total_bill", hue="sex",data=tips)
#plt.show()
#
# sns.swarmplot(x="total_bill", y="day", hue="time", data=tips);
# plt.show()

# 盒图
# IQR即统计学概念四分位距,第一/四分位与第三/四分位之间的距离
# N = 1.5IQR 如果一个值>Q3+N或 < Q1-N,则为离群点
# sns.boxplot(x="day", y="total_bill", hue="time", data=tips);
# plt.show()

#小提琴图
# sns.violinplot(x="total_bill", y="day", hue="time", data=tips);
# plt.show()

#
# sns.violinplot(x="day", y="total_bill", hue="sex", data=tips, split=True);
# plt.show()


sns.violinplot(x="day", y="total_bill", data=tips, inner=None)
sns.swarmplot(x="day", y="total_bill", data=tips, color="w", alpha=.5)
plt.show()

#显示值的集中趋势可以用条形图

sns.barplot(x="sex", y="survived", hue="class", data=titanic);

#点图可以更好的描述变化差异

sns.pointplot(x="sex", y="survived", hue="class", data=titanic);



sns.pointplot(x="class", y="survived", hue="sex", data=titanic,
              palette={"male": "g", "female": "m"},
              markers=["^", "o"], linestyles=["-", "--"]);

#宽形数据
sns.boxplot(data=iris,orient="h");

#多层面板分类图

sns.factorplot(x="day", y="total_bill", hue="smoker", data=tips)

sns.factorplot(x="day", y="total_bill", hue="smoker", data=tips, kind="bar")

sns.factorplot(x="day", y="total_bill", hue="smoker",
               col="time", data=tips, kind="swarm")

sns.factorplot(x="time", y="total_bill", hue="smoker",
               col="day", data=tips, kind="box", size=4, aspect=.5)

plt.show()
# seaborn.factorplot(x=None, y=None, hue=None, data=None, row=None, col=None, col_wrap=None, estimator=, ci=95, n_boot=1000, units=None, order=None, hue_order=None, row_order=None, col_order=None, kind='point', size=4, aspect=1, orient=None, color=None, palette=None, legend=True, legend_out=True, sharex=True, sharey=True, margin_titles=False, facet_kws=None, **kwargs)
# Parameters:
# x,y,hue 数据集变量 变量名
# date 数据集 数据集名
# row,col 更多分类变量进行平铺显示 变量名
# col_wrap 每行的最高平铺数 整数
# estimator 在每个分类中进行矢量到标量的映射 矢量
# ci 置信区间 浮点数或None
# n_boot 计算置信区间时使用的引导迭代次数 整数
# units 采样单元的标识符,用于执行多级引导和重复测量设计 数据变量或向量数据
# order, hue_order 对应排序列表 字符串列表
# row_order, col_order 对应排序列表 字符串列表
# kind : 可选:point 默认, bar 柱形图, count 频次, box 箱体, violin 提琴, strip 散点,swarm 分散点 size 每个面的高度(英寸) 标量 aspect 纵横比 标量 orient 方向 "v"/"h" color 颜色 matplotlib颜色 palette 调色板 seaborn颜色色板或字典 legend hue的信息面板 True/False legend_out 是否扩展图形,并将信息框绘制在中心右边 True/False share{x,y} 共享轴线 True/False


5、读数据且保存图
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib.pyplot as plt
import seaborn as sns

#第一步导入数据

#青年牛    平均数               标准差
#东北      0.6145              0.0455
#西北      0.591557622         0.045369844
#华中      0.609858198         0.079656856
#华南      0.608168602         0.028992897
#
#
# filepath = 'G:/nodebookPython3/bull/青年牛.png'
# # fig_path为想要存入的文件夹或地址
#
# #第一步:根据均值和标准差生成数据
# plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
# plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# df=pd.DataFrame({'青年牛平均数':[0.6145,0.591557622,0.609858198,0.608168602], '青年牛标准差':[0.0455,0.045369844,0.079656856,0.028992897]}, columns=['青年牛平均数','青年牛标准差'])
# print(df)
#
# #第二步:观测两个变量之间的分布关系最好用散点图
# fig=sns.jointplot(x="青年牛平均数", y="青年牛标准差", data=df);
# plt.show()
# fig.savefig(filepath)

# 读数据画出图
path = r'G:\nodebookPython3\lesson\data_file\titanic_train.csv'
df=pd.read_csv(path)
# 绘制
sns.pairplot(data=df);
#sns.pairplot(data=df,kind='hex');
plt.show()

6、回归分析
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

import seaborn as sns

#使用seaborn内置数据集
sns.set(color_codes=True)
np.random.seed(sum(map(ord, "regression")))
tips = sns.load_dataset("tips")
print(tips.head())

#regplot()和lmplot()都可以绘制回归关系,推荐regplot()
#sns.regplot(x="total_bill", y="tip", data=tips)

#plt.show()

#支持更高级的内容
#sns.lmplot(x="total_bill", y="tip", data=tips);


# sns.regplot(data=tips,x="size",y="tip")
# plt.show()

#不满足要求就加上抖动:x_jitter
sns.regplot(x="size", y="tip", data=tips, x_jitter=.05)
plt.show()



# anscombe = sns.load_dataset("anscombe")
# sns.regplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
#            ci=None, scatter_kws={"s": 100})
#
#
# sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
#            ci=None, scatter_kws={"s": 80})
#
# sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
#            order=2, ci=None, scatter_kws={"s": 80});
#
# sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips);
#
# sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips,
#            markers=["o", "x"], palette="Set1");
#
# sns.lmplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips);
#
# sns.lmplot(x="total_bill", y="tip", hue="smoker",
#            col="time", row="sex", data=tips);
#
# f, ax = plt.subplots(figsize=(5, 5))
# sns.regplot(x="total_bill", y="tip", data=tips, ax=ax);
#
#
# sns.lmplot(x="total_bill", y="tip", col="day", data=tips,
#            col_wrap=2, size=4);
#
# sns.lmplot(x="total_bill", y="tip", col="day", data=tips,
#            aspect=.8);
7、FacetGrid子图绘制
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt
sns.set(style="ticks")
np.random.seed(sum(map(ord, "axis_grids")))
tips = sns.load_dataset("tips")
print(tips.head())

#想画两个图展示time
#画出条形图
g = sns.FacetGrid(tips, col="time")
g.map(plt.hist, "tip");

plt.show()


#画出散点图
g = sns.FacetGrid(tips, col="sex", hue="smoker")
g.map(plt.scatter, "total_bill", "tip", alpha=.7)
g.add_legend();
plt.show()

#改变颜色
g = sns.FacetGrid(tips, row="smoker", col="time", margin_titles=True)
g.map(sns.regplot, "size", "total_bill", color=".1", fit_reg=False, x_jitter=.1);
plt.show()


g = sns.FacetGrid(tips, col="day", size=4, aspect=.5)
g.map(sns.barplot, "sex", "total_bill");

from pandas import Categorical
ordered_days = tips.day.value_counts().index
print (ordered_days)
#传进来的数据要用pandas中的数据
ordered_days = Categorical(['Thur', 'Fri', 'Sat', 'Sun'])
g = sns.FacetGrid(tips, row="day", row_order=ordered_days,
                  size=1.7, aspect=4,)
g.map(sns.boxplot, "total_bill");

pal = dict(Lunch="seagreen", Dinner="gray")
g = sns.FacetGrid(tips, hue="time", palette=pal, size=5)
g.map(plt.scatter, "total_bill", "tip", s=50, alpha=.7, linewidth=.5, edgecolor="white")
g.add_legend();

g = sns.FacetGrid(tips, hue="sex", palette="Set1", size=5, hue_kws={"marker": ["^", "v"]})
g.map(plt.scatter, "total_bill", "tip", s=100, linewidth=.5, edgecolor="white")
g.add_legend();


with sns.axes_style("white"):
    g = sns.FacetGrid(tips, row="sex", col="smoker", margin_titles=True, size=2.5)
g.map(plt.scatter, "total_bill", "tip", color="#334488", edgecolor="white", lw=.5);
g.set_axis_labels("Total bill (US Dollars)", "Tip");
g.set(xticks=[10, 30, 50], yticks=[2, 6, 10]);
g.fig.subplots_adjust(wspace=.02, hspace=.02);
#g.fig.subplots_adjust(left  = 0.125,right = 0.5,bottom = 0.1,top = 0.9, wspace=.02, hspace=.02)


iris = sns.load_dataset("iris")
g = sns.PairGrid(iris)
g.map(plt.scatter);

g = sns.PairGrid(iris)
g.map_diag(plt.hist)
g.map_offdiag(plt.scatter);

g = sns.PairGrid(iris, hue="species")
g.map_diag(plt.hist)
g.map_offdiag(plt.scatter)
g.add_legend();


g = sns.PairGrid(iris, vars=["sepal_length", "sepal_width"], hue="species")
g.map(plt.scatter);



g = sns.PairGrid(tips, hue="size", palette="GnBu_d")
g.map(plt.scatter, s=50, edgecolor="white")
g.add_legend();
plt.show()


8、热力图
import matplotlib.pyplot as plt
import numpy as np;
np.random.seed(0)
import seaborn as sns;
sns.set()

# uniform_data = np.random.rand(3, 3)
# print (uniform_data)
# heatmap = sns.heatmap(uniform_data)
#
# ax = sns.heatmap(uniform_data, vmin=0.2, vmax=0.5)
#
# normal_data = np.random.randn(3, 3)
# print (normal_data)
# ax = sns.heatmap(normal_data, center=0)
#
flights = sns.load_dataset("flights")
flights.head()

flights = flights.pivot("month", "year", "passengers")
print (flights)
# ax = sns.heatmap(flights)
#ax = sns.heatmap(flights, annot=True,fmt="d")

ax = sns.heatmap(flights, linewidths=.5)


#
#
# ax = sns.heatmap(flights, cmap="YlGnBu")
#
# ax = sns.heatmap(flights, cbar=False)
plt.show()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python数据分析机器学习实战是一本非常优秀的书籍,内容既广泛又深入,适合初学者和有一定经验的人。书中除了介绍了数据分析机器学习算法外,还深入介绍了Python的使用和如何用Python对数据进行处理。 在书中,作者简明扼要地介绍了各种数据分析机器学习算法,并通过实例来介绍各种算法的应用场景和优缺点,同时也介绍了如何使用Python进行数据处理和可视化。此外,书中还讲解了数据清理、特征选择、模型评估等实际应用问题。 为了方便读者学习,作者也提供了一些实例和源码,可以帮助读者更好地理解相关的知识点。读者可以通过书的官方网站或其他资源网站来下载这些实例和源码,并结合书中的讲解,来学习如何进行Python数据分析机器学习实战代码开发。 总之,Python数据分析机器学习实战是一本非常实用的书籍,能够帮助读者深入了解Python数据分析机器学习算法相关知识并掌握实战技能,同时如果能够结合实例和源码进行学习,会更加有效地帮助读者提高自己的能力。 ### 回答2: Python是一门强大的编程语言,其应用广泛,尤其是在数据分析机器学习领域中。为了帮助学习者更好地理解和应用python进行数据分析机器学习,一些专业的教育机构编写了相应的教程书籍。这些书籍中通常都包含具体的代码实现,这些源代码可以通过官方网站或Github等代码托管网站进行下载。 其中,对于想要深入学习数据分析机器学习的同学来说,可以下载《Python数据分析实战》和《Python机器学习实战》两本书籍的源代码进行学习。这两本书籍主要讲述Python数据分析机器学习应用领域的具体实现方法,由基础入门到深入实践都有详细的介绍。相应的源码和数据集的下载链接也都提供在书中。同学们可以自行下载代码并在本地运行。通过学习源代码,可以更好地理解书中所讲述的知识点和方法,并实现自己的数据分析机器学习实践。 当然,只有下载到源代码并运行,对于代码的理解和运用还是需要花费相应的时间和精力。因此,在学习过程中也可以参考其他相关的学习资料和参考书籍,加深对Python数据分析机器学习的理解和应用。 ### 回答3: Python数据分析机器学习是当前非常流行的技术,其实战源码是学习和掌握这些技术的重要手段之一。对于想要深入学习这些领域的人来说,Python数据分析机器学习实战源码的下载是必不可少的。 Python数据分析机器学习实战源码下载可以通过互联网上多个渠道进行。其中,比较流行的是从相关书籍的官方网站、Github上或其他在线资源共享平台上进行下载。比如,由Python爱好者发布的Github上,有很多包含源码的项目,非常方便下载。 这些源码可以帮助大家理解Python数据分析机器学习算法在实际应用中的运用。通过对源码的研究,大家可以了解算法的基本原理、运作方式以及优化技巧。这有利于大家快速掌握相关领域的实践能力。 总的来说,Python数据分析机器学习实战源码是学习和掌握这些技术的重要手段,这些源码的下载可以通过多种渠道进行。同时,建议大家尽可能多地阅读不同领域的实战源码,不断扩展自己的知识面和实践能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值