![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 75
hanscalZheng
关注NLP领域,专注QA和对话以及知识图谱。
展开
-
Pandas图解
下面将借助可视化的过程,讲解Pandas的各种操作。执行步骤:size列筛选出部分行然后将行的类型进行转换按照type列进行分组,计算中位数执行步骤:将数据按照size进行分组在分组内进行聚合操作执行步骤按照size列对数据进行排序按照size进行分组对分组内的height进行计算mergingpivot table...原创 2022-06-07 16:40:41 · 211 阅读 · 0 评论 -
Matplotlib学习(三)--其他格式数据可视化
结果如下图所示:结果如下图所示:结果如下图所示:若将8改成100,结果非常魔幻结果如下图所示:结果如下图所示:结果如下图:图1图2三种方法对应的结果如下图所示:图1图2图3结果如下图所示:......原创 2022-06-06 21:21:20 · 200 阅读 · 0 评论 -
Matplotlib学习(二)--设置图像格式
figure如下:这节课主要是学习如何设置坐标轴的位置figure 如下所示:八、annotation 注解结果如下图所示:本节课内容是教你如何把坐标轴数值的label拿出来,再单独设置参数结果如下图所示:......原创 2022-06-05 22:42:14 · 528 阅读 · 0 评论 -
Matplotlib学习(一)--基本用法
Matplotlib是python中很强大的画图包,类似于MATLAB中的画图简称plt,可视化可以帮助我们更好的了解数据pip install matplotlib返回的结果为:figure 1: figure 2: figure如下所示:原创 2022-06-03 23:01:35 · 206 阅读 · 0 评论 -
Pandas(十四)--索引操作
目录索引Index创建索引设置索引重置索引分层索引MultiIndex创建分层索引应用分层索引分层索引切片取值聚合函数应用局部索引行索引层转换为列索引列索引实现分层交换层和层排序索引Index通过索引(Index)可以从 DataFame 中选择特定的行数和列数,这种选择数据的方式称为“子集选择”。在 Pandas 中,索引值也被称为标签(label),它在 Jupyter 笔记本中以粗体字进行显示。索引可以加快数据访问的速度,它就好比数据的书签,原创 2022-05-07 11:44:03 · 7286 阅读 · 0 评论 -
Pandas(十三)--读写文件
目录CSV文件read_csv()to_csv()read_excel()to_excel()json文件read_json()to_json()SQL数据库读取1) 安装pysqlite3模块2) 建立数据连接3) 数据库读取数据当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。Panda 提供了多种读取数据的方法:read_csv() 用于读取文本文件 read_excel() 用于读取Excel表格 r原创 2022-05-06 16:22:00 · 1425 阅读 · 0 评论 -
Pandas(十二)--绘图
Pandas 在数据分析、数据可视化方面有着较为广泛的应用,Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。Pandas 之所以能够实现了数据可视化,主要利用了 Matplotlib 库的 plot() 方法,它对 plot() 方法做了简单的封装,因此您可以直接调用该接口。绘图方式,如下所示:线形图: 默认 柱状图:bar() 或 barh() 直方图:hist() 箱状箱:box() 区域图:area()原创 2022-05-05 11:21:43 · 1889 阅读 · 0 评论 -
Pandas(十一)--时间序列相关
目录时间序列创建时间戳创建时间范围转化为时间戳频率和周期转换时间周期计算创建时间周期时间序列转换创建日期范围更改日频率工作日时间时间序列格式化日期格式化Python处理Pandas处理1) to_datetime()2) DatetimeIndex()时间差计算创建Timedelta 对象字符串整数数据偏移量转换Timedelta对象to_timedelta()算术操作加法运算减法运算时间序列时间原创 2022-05-04 15:18:28 · 2677 阅读 · 0 评论 -
Pandas(十)--窗口函数和聚合函数
目录窗口函数rolling()expanding()ewm()聚合函数整体聚合任意一列聚合多列数据聚合单列应用多个函数不同列应用多个函数不同列应用不同函数窗口函数为了能更好地处理数值型数据,Pandas 提供了几种窗口函数,比如移动函数(rolling)、扩展函数(expanding)和指数加权函数(ewm)。窗口是一种形象化的叫法,这些函数在执行操作时,就如同窗口一样在数据区间上移动。主要讲解如何在 DataFrame 和 Series 对象上应原创 2022-05-04 12:58:27 · 1732 阅读 · 1 评论 -
Pandas(九)--数据采样
目录sample() 采样函数随机采样有条件采样恒定速率采样获取数据剩余部分resample()采样函数降采样升采样频率转换asfreq()插值处理sample() 采样函数随机采样随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。sample() 函数的语法格式如下:DataFrame.sample(n=None, f原创 2022-05-03 13:32:04 · 4096 阅读 · 0 评论 -
Pandas(八)--字符串函数
Pandas(版本号1.3.4) 提供了一系列的字符串函数,因此能够很方便地对字符串进行处理。常用的字符串处理函数如下表所示:函数名称 函数功能和描述 lower() 将的字符串转换为小写。 upper() 将的字符串转换为大写。 len() 得出字符串的长度。 strip() 去除字符串两边的空格(包含换行符)。 split() 用指定的分割符分割字符串。 cat(sep="") 用给定的分隔符连接字符串元素。 get_dummi原创 2022-05-02 13:56:40 · 533 阅读 · 0 评论 -
Pandas(七)--分组、合并和连接
目录分组groupby()创建DataFrame对象创建分组对象遍历分组数据应用聚合函数组的转换操作组的数据过滤操作合并merge()1) 使用on参数合并2) 使用how参数合并连接concat()行方向连接列方向连接append()分组groupby()在 Pandas 中,要完成数据的分组操作,需要使用 groupby() 函数,它和 SQL 的GROUP BY操作非常相似。在划分出来的组(group)上应用一些统计函数,从而达到数据分.原创 2022-05-01 15:47:56 · 3164 阅读 · 0 评论 -
Pandas(六)--去重和排序
目录去重drop_duplicates()函数格式实际应用根据指定列标签去重指定多列同时去重排序sort_index()、sort_values()按行标签排序按列标签排序按值排序排序算法去重drop_duplicates()在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受原创 2022-04-30 12:58:33 · 2391 阅读 · 0 评论 -
Pandas(五)--iteration遍历
对于 Series 而言,您可以把它当做一维数组进行遍历操作;而像 DataFrame 这种二维数据表结构,则类似于遍历 Python 字典。for遍历在 Pandas 中通过for遍历后,Series 可直接获取相应的 value,而 DataFrame 则会获取列标签。# 示例如下:import pandas as pdimport numpy as npN=20df = pd.DataFrame({'A': pd.date_range(start='2016-01-01',pe原创 2022-04-29 12:25:25 · 1984 阅读 · 0 评论 -
Pandas(四)--自定义函数
应用方法pipe、apply、applymap应用自定义的函数,或者把其他库中的函数应用到 Pandas 对象中,有以下三种方法:1)操作整个 DataFrame 的函数:pipe() 2)操作行或者列的函数:apply() 3)操作单一元素的函数:applymap()如何从上述函数中选择适合的函数,这取决于函数的操作对象。下面介绍了三种方法的使用。操作整个数据表通过给 pipe() 函数传递一个自定义函数和参数值,从而操作 DataFrme 中的所有元素。# 下面示例,实...原创 2022-04-28 10:12:25 · 411 阅读 · 0 评论 -
Pandas(三)--描述统计函数
描述统计函数描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库将“描述统计学”作为理论基奠,是对描述统计学知识完美应用的体现。下列表格对 Pandas 常用的统计学函数做了简单的总结:函数名称 描述说明 count() 统计某个非空值的数量。 sum() 求和 mean() 求均值 media原创 2022-04-27 12:13:34 · 1709 阅读 · 0 评论 -
Pandas(二)--DataFrame结构
DataFrame结构DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。其结构图示意图,如下所示:表格中数据以行和列形式来表示,其中每一列表示一个属性,而每一行表示一个条目的信息。下表展示了上述表格中每一列标签所描述数据的数据类型,如下所示:Column Type name String age integer原创 2022-04-26 14:45:35 · 3344 阅读 · 0 评论 -
Pandas(一)--Series结构
目录Series结构创建Series对象访问Series数据Series常用属性Series常用方法Series结构Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。Series 可以保存任何数据类型,比如整数、字符串、浮点数、Python 对象等,它的标签默认为整数,从 0 开始依次递增。Series 的结构图,如下所示:通过原创 2022-04-25 13:21:42 · 5790 阅读 · 0 评论 -
Pandas与NumPy区别以及dataframe和ndarray对象转换
区别Pandas 和 NumPy 被认为是科学计算与机器学习中必不可少的库,因为它们具有直观的语法和高性能的矩阵计算能力。下面对 Pandas 与 NumPy 进行简单的总结,如下表所示:比较项 Pandas NumPy 适应性 Pandas主要用来处理类表格数据。 NumPy 主要用来处理数值数据。 工具 Pandas提供了Series和DataFrame数据结构。 NumPy 构建了 ndarray array来容纳数据。 性能 Pandas原创 2022-04-24 12:45:53 · 6747 阅读 · 0 评论 -
Numpy图解(三)--高维数组
目录高维数组创建数组高维数组运算连接函数hstack、vstack和dstack堆叠函数concatenate求和函数einsum高维数组创建数组通过重排一维向量或转换嵌套的Python列表来创建3D数组时,索引的含义为(z,y,x)。第一个索引是平面的编号,然后才是在该平面上的移动:这种索引顺序很方便,例如用于保留一堆灰度图像:这a[i]是引用第i个图像的快捷方式。但是此索引顺序不是通用的。处理RGB图像时,通常使用(y,x,z)顺序:前两个是像素坐标,原创 2022-04-21 12:00:48 · 3102 阅读 · 0 评论 -
Numpy图解(二)--矩阵
矩阵矩阵初始化矩阵初始化语法与向量相似:这里需要双括号,因为第二个位置参数是为dtype保留的。随机矩阵的生成也类似于向量的生成:二维索引语法比嵌套列表更方便:和一维数组一样,上图的view表示,切片数组实际上并未进行任何复制。修改数组后,更改也将反映在切片中。axis参数在许多操作(例如求和)中,我们需要告诉NumPy是否要跨行或跨列进行操作。为了使用任意维数的通用表示法,NumPy引入了axis的概念:axis参数实际上是所讨论索引的数量:第一个索引是axis原创 2022-04-21 11:42:22 · 1972 阅读 · 0 评论 -
Numpy图解(一)--向量
目录Numpy数组与Python列表Numpy向量向量初始化向量索引向量运算Numpy数组与Python列表它们都可以用作容器,具有获取(getting)和设置(setting)元素以及插入和移除元素的功能。两者有很多相似之处,以下是二者在运算时的一个示例:和Python列表相比,Numpy数组具有以下特点:更紧凑,尤其是在一维以上的维度;向量化操作时比Python列表快,但在末尾添加元素比Python列表慢。△在末尾添加元素时,Python列原创 2022-04-20 15:18:02 · 3373 阅读 · 0 评论