![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据可视化
文章平均质量分 81
用Python实现数据清洗与数据可视化
来日可期Dream
这个作者很懒,什么都没留下…
展开
-
Python数据可视化(Pandas_3_算数运算)
对Pandas Series执行算术运算和 NumPy ndarray 一样,我们可以对 Pandas Series 执行元素级算术运算。我们将了解 Pandas Series 和单个数字之间的算术运算。我们创建一个新的 Pandas Series,用于存储只有水果的购物清单。# We create a Pandas Series that stores a grocery list of just fruitsfruits= pd.Series(data = [10, 6, 3,], index =原创 2021-09-21 16:12:02 · 118 阅读 · 0 评论 -
Matplotlib和Seaborn(散点图、热图、小提琴图、箱线图)
文章目录散点图和相关性:散点图:重叠、透明度和抖动:热图:小提琴图:箱线图散点图和相关性:散点图:如果我们想研究两个数值变量之间的关系,通常会选择散点图。在散点图中,每个数据点都单独表示为一个点,x 轴对应一个特征值,y 轴对应另一个特征值。创建散点图的一个基本方式是利用 Matplotlib 的 scatter 函数:plt.scatter(data = df, x = 'num_var1', y = 'num_var2')可以在这两个变量之间看到一个大致上的正向关系,x 轴的值越高,y 轴原创 2021-09-28 10:32:26 · 3810 阅读 · 0 评论 -
Python数据可视化(Pandas_5_访问元素)
访问 Pandas DataFrame 中的元素我们可以通过多种不同的方式访问 Pandas DataFrame 中的元素。通常,我们可以使用行和列标签访问 DataFrame 的行、列或单个元素。我们将使用在上节课创建的同一 store_items DataFrame。我们来看一些示例:# We print the store_items DataFrameprint(store_items)# We access rows, columns and elements using labels原创 2021-09-21 19:26:10 · 471 阅读 · 0 评论 -
Matplotlib和Seaborn(饼图,直方图)
饼图饼图是一种常见的单变量图表,用于描绘分类变量各类别的相对频率。饼图中的扇区代表频率大小;角度或面积越大,该类别就出现地越频繁。遗憾的是,饼图是一种应用场合很有限的图表类型,图表创建者很容易将饼图绘制得难以看懂。如果你要使用饼图,请尝试遵守下面的规则:确保你关心的是相对频率。每个扇区应该表示整体的一部分,而不是单独的数值(除非变量能够求和成某个整体)。将扇区限制在一定数量内。饼图最好只包含两到三个扇区,如果扇区足以明确区分,也可以包含四到五个。如果你有很多个类别,并且某些类别所占的比例很小,那原创 2021-09-27 14:33:26 · 8592 阅读 · 0 评论 -
Matplotlib和Seaborn(离散数据的图表选择与一些使用技巧)
为离散数据选择图表如果想要绘制离散型数值变量,直方图或条形图都是可能的选择 。直方图可能是最直接的选择,因为数据是数值型的,但是需要特别考虑一下分组边界的问题。因为离散型数值都是特定的值,而你的读者可能并不了解分组边界的值属于右边的分组,所以将分组边界设置为实际的两个值之间可以减少歧义。请比较下面两个图表,图表的数据是 100 次随机掷骰结果(die_rolls),左图是分组边界值等于数据实际值的情况,右边是分组边界在数据实际值之间的情况。plt.figure(figsize = [10, 5])原创 2021-09-27 15:25:19 · 2889 阅读 · 0 评论 -
Matplotlib和Seaborn(条形图)
条形图条状图的创建:条形图(也被称为柱形图、柱状图等)用于展示分类变量的分布情况。在条形图中,分类变量的每个类别用长条表示,高度表示数据该类别的出现频率。我们可以通过 seaborn 的 countplot 函数创建基本的频率条形图:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sb%matplotlib inline其中%matplotlib inline,就可原创 2021-09-27 11:05:37 · 858 阅读 · 0 评论 -
Python数据可视化(Numpy_1_Numpy的介绍及创建)
数据可视化(一)NumpyNumPy 的核心是 ndarray,其中 nd 表示 n 维。ndarray 是一个多维数组,其中的所有元素类型都一样。换句话说,ndarray 是一个形状可以多样,并且可以存储数字或字符串的网格。在很多机器学习问题中,你通常都会发现需要以多种不同的方式使用 ndarray。例如,你可能会使用 ndarray 存储一个图像的像素值,然后将该图像馈送到神经网络中以进行图像分类。import numpy as np我们可以通过多种方式在 NumPy 中创建 ndarray。原创 2021-09-16 11:35:41 · 1245 阅读 · 0 评论 -
Python数据可视化(Numpy_5_算术运算和广播)
算术运算和广播我们已经学到“ NumPy ”课程的最后一节课了。在最后一节课,我们将了解 NumPy 如何对 ndarray 进行算术运算。NumPy 允许对 ndarray 执行元素级运算以及矩阵运算。在这节课,我们将仅了解如何对 ndarray 进行元素级运算。为了进行元素级运算,NumPy 有时候会用到广播功能。广播一词用于描述 NumPy 如何对具有不同形状的 ndarray 进行元素级算术运算。例如,在标量和 ndarray 之间进行算术运算时,会隐式地用到广播。我们先在 ndarray 之间原创 2021-09-17 17:54:37 · 164 阅读 · 0 评论 -
Matplotlib 和 Seaborn(Figures、Axes 和 Subplot)
Figures、Axes 和 Subplot到目前为止,你已经见过并使用 matplotlib 和 seaborn 练习过一些基本绘制函数。上个页面介绍了新的知识:通过 matplotlib 的 subplot() 函数创建两个并排显示的图表。如果你对该函数或 figure() 函数的原理有任何疑问,请继续阅读。此页面将使用 matplotlib 讨论可视化的基本结构,以及子图表在该结构下的工作原理。matplotlib 中的可视化基本结构是 Figure 对象。每个 Figure 中将包含一个或多个原创 2021-09-27 14:52:01 · 2995 阅读 · 0 评论 -
Python数据可视化(Pandas_1_Pandas简介及创建)
Pandas简介Pandas 是 Python 中的数据操纵和分析软件包。名称“Pandas”得名自计量经济学 Panel Data(面板数据)一词。Pandas 为 Python 带来了两个新的数据结构,即 Pandas Series 和 Pandas DataFrame。借助这两个数据结构,我们能够轻松直观地处理带标签数据和关系数据。为何要使用 Pandas?机器学习算法能取得最近的飞速发展,部分原因就是我们可以用大量数据训练算法。但是,对于数据来说,数量并不是唯一重要的方面,数据质量也同等重要。原创 2021-09-21 14:31:01 · 547 阅读 · 0 评论 -
Python数据可视化(Pandas_4_DataFrame)
创建 Pandas DataframePandas DataFrames 是具有带标签的行和列的二维数据结构,可以存储很多类型的数据。如果你熟悉 Excel 的话,可以将 Pandas DataFrames 看做类似于电子表格。在接下来的课程中,我们将开始学习如何手动地通过字典创建 Pandas DataFrame,稍后,我们将学习如何将数据文件中的数据加载到 DataFrame 中。首先,我们将使用 Pandas Series 字典手动创建一个 DataFrame。第一步是创建 Pandas Seri原创 2021-09-21 18:32:26 · 1235 阅读 · 0 评论 -
Python数据可视化(Numpy_2_访问和删除 ndarray 中的元素及向其中插入元素)
访问和删除 ndarray 中的元素及向其中插入元素访问和删除:访问你已经知道如何创建各种 ndarray,现在将学习 NumPy 使我们如何有效地操纵 ndarray 中的数据。NumPy ndarray 是可变的,意味着 ndarray 中的元素在 ndarray 创建之后可以更改。NumPy ndarray 还可以切片,因此可以通过多种方式拆分 ndarray。例如,我们可以从 ndarray 中获取想要的任何子集。通常,在机器学习中,你需要使用切片拆分数据,例如将数据集拆分为训练集、交叉验证集原创 2021-09-16 17:17:55 · 904 阅读 · 0 评论 -
Python数据可视化(Numpy_3_Ndarry 切片)
Ndarry 切片正如之前提到的,我们除了能够一次访问一个元素之外,NumPy 还提供了访问 ndarray 子集的方式,称之为切片。切片方式是在方括号里用冒号 : 分隔起始和结束索引。通常,你将遇到三种类型的切片:1. ndarray[start:end]2. ndarray[start:]3. ndarray[:end]第一种方法用于选择在 start 和 end 索引之间的元素。第二种方法用于选择从 start 索引开始直到最后一个索引的所有元素。第三种方法用于选择从第一个索引开始直到 e原创 2021-09-17 16:25:47 · 505 阅读 · 0 评论 -
Python数据可视化(Pandas_6_处理Nan的思路)
正如之前提到的,在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据。也就是说,我们需要通过某个方法检测并更正数据中的错误。虽然任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。正如之前看到的,Pandas 会为缺少的值分配 NaN 值。在这,我们将学习如何检测和处理 NaN 值。首先,我们将创建一个具有一些 NaN 值的 DataFrame。# We create a list of Python dictionariesitems原创 2021-09-21 19:56:50 · 1026 阅读 · 0 评论 -
Python数据可视化(Numpy_4_布尔型索引、集合运算和排序)
布尔型索引、集合运算和排序到目前为止,我们了解了如何使用索引进行切片以及选择 ndarray 元素。当我们知道要选择的元素的确切索引时,这些方法很有用。但是,在很多情况下,我们不知道要选择的元素的索引。例如,假设有一个 10,000 x 10,000 ndarray,其中包含从 1 到 15,000 的随机整数,我们只想选择小于 20 的整数。这时候就要用到布尔型索引,对于布尔型索引,我们将使用逻辑参数(而不是确切的索引)选择元素。我们来看一些示例:# We create a 5 x 5 ndarray原创 2021-09-17 17:25:46 · 171 阅读 · 0 评论 -
Python数据可视化(Pandas_7_数据加载)
将数据加载到 Pandas DataFrame 中在机器学习中,你很有可能会使用来自很多来源的数据库训练学习算法。Pandas 使我们能够将不同格式的数据库加载到 DataFrame 中。用于存储数据库的最热门数据格式是 csv。CSV 是指逗号分隔值,是一种简单的数据存储格式。我们可以使用 pd.read_csv() 函数将 CSV 文件加载到 Pandas DataFrame 中。我们将 Google 股票数据加载到一个 Pandas DataFrame 中。GOOG.csv 文件包含从雅虎金融那获取原创 2021-09-21 20:47:33 · 228 阅读 · 1 评论 -
Python数据可视化(Pandas_2_访问和删除元素)
访问和删除 Pandas Series 中的元素现在我们来了解如何访问或修改 Pandas Series 中的元素。Pandas Series 的一大优势是我们能够以很多不同的方式访问数据。我们可以通过在方括号 [ ] 内添加索引标签或数字索引访问元素,就像访问 NumPy ndarray 中的元素一样。因为我们可以使用数字索引,因此可以使用正整数从 Series 的开头访问数据,或使用负整数从末尾访问。因为我们可以通过多种方式访问元素,为了清晰地表明我们指代的是索引标签还是数字索引,Pandas Ser原创 2021-09-21 16:05:07 · 761 阅读 · 0 评论