Dx674-CSDN博客

原创分组级运算

transform(func, *args, **kwargs)通过transform()方法操作分组时，transform()方法会把func()函数应用到各个分组中，并且将结果放到适当的位置上这里也可以换成：key=['A','A','B','B','B']data_group = df.groupby(key).transform('mean')apply(func, axis=0, broadcast=None)func：表示应用于某一行或某一列的函数axis：表示函数操作的轴向,

2023-12-10 19:58:20 399

原创数据的聚合

axis：表示函数作用于轴的方向，0或index表示函数应用到每一列，1或columns表示将函数应用到每一行，该参数的默认值是0。aggregate()和agg()方法一样，实现对Series和DataFrame对象进行聚合运算。func：表示用于汇总数据的函数，可以为单个函数或函数列表。# 按key列进行分组。

2023-12-10 19:55:07 356

原创分组与聚合

拆分：将数据集按照一些标准拆分为若干个组应用：将某个函数或者方法应用到每个分组合并：将产生的新值整合到结果对象中。

2023-12-10 19:49:01 728 1

原创数据的转换

index,columns：表示待转换的行索引和列索引。axis：表示轴的名称，可以使用columns和index，也可以使用数字0或1copy：表示是否复制底层的数据，默认为Falseinplace：默认为False，表示是否返回新的pandas对象，如果设为True,则会忽略复制的值。level：表示级别名称，默认为None，对于多级索引，只重命名指定的标签。下面代码与上面代码结果是一样的，就是实现方式有差别为行索引进行改名字# 也可以对行索引进行重命名。

2023-12-09 19:32:13 328

原创数据的重塑

上面参数含义如下：level：表示操作内层索引，若设为0表示操作外层索引。dropna：表示是否将旋转后的缺失值删除，若设为True，则表示自动过滤缺失值，如果为False则相反。下面是多层索引设的重塑重塑内层索引图重塑外层索引图下面是代码。

2023-12-09 16:48:17 334

原创根据行索引合并数据以及合并重叠数据

join() 方法能够通过列或指定列来连接DataFrame，其语法格式如下：on：用于连接列名how：可以从 left, right, outer, inner中任选一个，默认使用 left 方式lsuffix：接收字符串，用于在左侧重叠的列名之后添加后缀名rsuffix：接收字符串，用于在右侧重叠的列名之后添加后缀名sort：接收布尔值，根据链接键对合并的数据进行排序，默认为False下面是外链接合并示意图。

2023-12-09 15:32:45 427

原创数据合并（前半部分）

axis：表示链接的轴向，可以为0或1，默认为0join：表示连接的方式，inner表示内连接，outer表示外链接，默认使用外链接。ignore_index：接受布尔值，默认为False。如果设置为True，表示清楚现有索引并重置索引值。keys：接收序列，表示添加最外层索引。levels：用于构建MultiIndex的特定级别（唯一值）names：在设置了keys和level参数之后，用于创建分层级别的名称。verify_integrity：检查新的连接轴是否包含重复项。

2023-12-05 16:54:26 841

原创更改数据类型

df.dtypes (dt.dtype是描述数组的数据类型的)也可以在定义时明确地指出数据类型。

2023-12-05 15:13:36 427

原创异常值处理

3σ原则又称为拉依达原则，根据正态分布得出的。(凡是超过（μ-3σ，μ+3σ）这个区间的均为异常值)打开文件代码为file = open(文件路径)df。

2023-12-05 15:08:16 348

原创数据清洗部分知识

用的函数为isnull()和notnull()

2023-12-03 19:43:35 372 1

原创第一二章数据分析笔记及概念性知识

数据分析是指：用适当的统计分析方法将收集来的大量数据进行数据分析，提取有用信息和形成总结，并加以详细概括和研究的过程。

2023-10-31 23:04:57 189 1

原创数据分析第三章的一些知识点

DataFrame是一个类似于二维数组或表格的对象，它每列的数据可以时不同的数据类型。与Series的结构相似，DataFrame的结构也由索引和数据组成的，不同的是DataFrame的索引不仅仅有行索引还有列索引。Pandas执行算术运算时，会先按照索引进行对齐后再进行计算，没有对齐的位置会用NaN进行补齐，Series是按行索引对齐，DataFrame是按行索引和列索引进行对齐的。Series是一个类似于一维数组的对象，它能够保存任何类型的数据，比如整数，字符串，浮点数等等。

2023-10-31 23:03:32 179 1

原创 pandas与读写数据库

为了高效读取数据库，需要引入sqlalchemy，它提供SQL工具包和对象映射工具能够高效地访问数据库。read_sql_tables()和read_sql_query()函数都能将读取的数据转换成DataFrame对象,前者是将整张表转换成DataFrame对象，后者是将SQL语句读取的数据转换成DataFrame对象。

2023-10-31 23:01:31 183 1

原创读写文本文件

path_or_buf：文件路径# index：布尔值，默认为True，若为False,则将不会显示索引# sep：分隔符，默认用“.”隔开# 如果在指定路径下文件不存在，则会新建一个文件夹来保存数据；如果文件已经存在，则会将文件中的内容进行覆盖下面是一段示例代码# 创建一个小表格# 将表格写入到路径为D:\MY_code\my.csv里面去# 运行完，最后运行输入完毕'写入完毕'# 输出结果为写入完毕。

2023-10-31 22:59:58 36 1

原创层次化索引

按num列进行降序排列，data.sort_index(by=['num'],ascending = False)

2023-10-26 23:23:24 69

原创 pandas算术算术运算与数据对齐

【代码】pandas算术算术运算与数据对齐。

2023-10-26 23:18:51 47

原创索引操作呀

重置索引 DataFrame.reindex(labels=None,index=None,columns=None,axis=None,method=None,copy=True,fill_value=nan,limit=None)method: 插值填充的方式，向前填充ffill，向后填充bfillfill_values: 引入缺失值时使用的替代值limit: 前项或者后项填充时的最大填充量看下一段代码再看下一段代码重置索引的最后一段代码。

2023-10-26 23:14:45 18

原创 series和DataFrame

Series是一个类似于一维数组的对象，它能够保存所有类型的数据。name是指Series对象的名字copy是指是否对数据进行复制fastpath是指校验Series的对象名称。

2023-10-26 23:10:19 17

原创 numpy中一些较为复杂的操作和书本案例

【代码】numpy中一些较为复杂的操作和书本案例。

2023-10-21 00:18:06 39 1

原创 numpy的数组运算，切片以及布尔类型索引以及花式和转置

数组相减，乘，除与数组相加差不多，都是对应元素进行相加，乘，除。

2023-10-21 00:13:45 90

原创 numpy的数据类型转换和数组广播

第一种方法装好python，然后打开终端输入pip install jupyter（如果觉得速度慢可以加上镜像站 -i）,然后再输入pip install notebook (这里和前面一样，觉得慢就加镜像), 打开在终端输入 jupyter notebook。另一种方法就是去anaconda官网下载anaconda。如果用的第一种方法就需要 pip install numpy求数组的维度的个数data.ndim求数组的维度data.shape求数组的元素类型data.dtype求数组的元素个数。

2023-10-19 12:19:47 47

原创一些快捷键（小知识）

#“+空格+标题+回车（这就是一级标题，二级标题往前面再加一个#，以此类推）“” (括号里面填路径，可以是网络图片也可以是本地图片，如果是网络图片则打开浏览器的开发者功能（fn+f12），取找图片的链接)字体两边加 “**” 表示字体加粗字体两边加 “*” 表示字体斜体字体两边加 “***” 表示字体斜体加粗两边加 “~~” 表示废弃加上 “ --- ” 或者 “ *** ” 表示分割线“ > ” 表示引用" ```java " 表示接下来写的是java代码。

2023-10-17 16:47:26 85

qq_68395231的博客