Python+Excel
文章平均质量分 56
Python+Excel数据分析与处理个人学习笔记。内容整理自《Excel+Python飞速搞定数据分析与处理》,如果觉得内容不错,请支持正版书籍
竹筒饭啊
这个作者很懒,什么都没留下…
展开
-
pandas数据分析(8)
要创建数据透视表,需要将DataFrame作为第一个参数传递给pivot_table函数。index和columns分别指定了哪一列会成为数据透视表的行标签和列标签。values会通过aggfunc被聚合到结果DataFrame中的数据部分。(书上说会自动屏蔽非数值列,然而我报错了,有没有大佬懂的)如果想要将列标题转换为列的值,以便从另一个角度透视数据,可以使用melt。id_vars参数定义了标识,values_vars定义了想要反透视的列。在默认情况下缺失的值不会参与sum和mean的计算。原创 2024-07-08 21:29:02 · 385 阅读 · 0 评论 -
pandas数据分析(7)
如果想在不依赖索引的情况下连接DataFrame中的一列或多列,那么应该使用merge,而不是join。merge可以通过on参数提供的一列或多列作为连接条件,这些列必须是两个DataFrame所共有的,它们会被用来和行进行匹配。会保留左侧df1的所有行,然后用右侧df2中的行去匹配df1的索引。在默认情况下,concat会将DataFrame按行粘合在一起,同时会将各列自动对齐。在连接两个DataFrame时,这两个DataFrame的列会连接在一起,而行的行为会借助集合论的原理来确认。原创 2024-07-03 10:43:12 · 228 阅读 · 0 评论 -
pandas数据分析(6)
结果DataFrame的索引和列是两个DataFrame的并集:两个DataFrame中都有的字段会被相加,而其他的部分会显示NaN。对Numpy数组进行切片时,返回的是视图。但是DataFrame情况比较复杂,loc和iloc返回的是视图还是副本难以预测。虽然loc和iloc情况比较复杂,但是诸如df.dropna()或df.sort_value("column_name")这样的DataFrame方法 总是返回副本。当算式的操作数是一个DataFrame和一个Series时,默认情况会按索引进行广播。原创 2024-07-03 08:43:38 · 399 阅读 · 0 评论 -
pandas数据分析(4)
修改DataFrame数据的最简单的方法是通过loc和iloc属性为某些元素赋值。首先构造一组数据。原创 2024-07-01 09:33:58 · 195 阅读 · 0 评论 -
pandas数据分析(2)
如果在构造DataFrame时没有提供列名,那么pandas会用 从0开始的数字为列编号。原创 2024-06-30 08:38:25 · 237 阅读 · 0 评论 -
pandas数据分析(1)
pandas,即Python数据分析库(Python data analysis library)原创 2024-06-29 15:38:11 · 304 阅读 · 0 评论 -
pandas数据分析(5)
keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。pandas使用Numpy的np.nan代表缺失数据,显示为NaN。执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。原创 2024-07-02 18:44:31 · 202 阅读 · 0 评论 -
Numpy基础
同构表示数组中的所有数据都必须是同种类型的数据。array1除了最后一个元素是浮点数,其余都是整数,由于Numpy对同构的要求,这个数组的数据类型依然是float64,这个类型足以容纳所有的元素。在Numpy数组中则是在一个方括号内同时提供两个维度的索引和切片参数:array[row,col]。如果对一个标量和Numpy数组求和,那么Numpy会执行按元素的操作,不用自己写遍历元素的算法,称为向量化。使用不同形状的数组进行运算时,Numpy在可能的情况下会自动将较小的数组扩展成较大数组的形状,这就是广播。原创 2024-06-29 08:40:28 · 452 阅读 · 0 评论