![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
confiself
这个作者很懒,什么都没留下…
展开
-
python数据分析之pandas(13)高级数据聚合
之前通过map函数,可以对列进行处理,这节主要学习transform和apply函数1. transform函数transform()函数更适用于聚合操作,但是它对参数有特定要求:作为参数的函数必须生成一个标量(聚合),因为只有这样才能进行广播frame.groupby(‘color’).transform(np.sum).add_prefix(‘tot_’)>>> im...原创 2020-02-21 22:44:05 · 178 阅读 · 0 评论 -
python数据分析之pandas(12)数据聚合
1.goupby()函数实例可以对frame或者其中部分列排序,排序by可以是一列或多列,返回索引列为by中的列,而columns则为所选择的要排序的列frame[‘price1’].groupby(frame[‘color’])>>> frame = pd.DataFrame({'color': ['white', 'red', 'green', 'red', 'gree...原创 2020-02-20 23:06:44 · 209 阅读 · 0 评论 -
python数据分析之pandas(11)排序和字符串处理
1.take排序take()函数可以理解为对frame对象按照给定行按顺序抽取frame.take([2,1]) //取index为2,1的行>>> import pandas as pd>>> import numpy as np>>> frame = pd.DataFrame(np.arange(9).reshape(3,3))...原创 2020-02-19 21:29:06 · 1047 阅读 · 0 评论 -
python数据分析之pandas(10)离散化和元面划分
为对连续数据进行分区,pandas提供了一些函数:1. 区间划分>>> import pandas as pd>>> results = [1,3,4,8,2,5]>>> bins = [1,3,9]>>> cat = pd.cut(results, bins)注意:这里的bins最小值要小于results中的值...原创 2020-02-18 23:19:37 · 245 阅读 · 0 评论 -
python数据分析之pandas(10)数据转换
1. 删除重复元素通过duplicated()函数可以找出重复的行,操作如下:frame.duplicated() //判断是否重复行frame[frame.duplicated()] //删除重复行frame.drop_duplicates() //删除重复行示例如下:>>> frame = pd.DataFrame({'color': ['white', 'wh...原创 2020-02-17 22:52:59 · 130 阅读 · 0 评论 -
python数据分析之pandas(9)数据拼接
1.拼接numpy的concatenate函数利用concatenate可实现按axis进行拼接,如:>>> import numpy as np>>> a = np.arange(9)>>> aarray([0, 1, 2, 3, 4, 5, 6, 7, 8])>>> a = np.arange(9).resh...原创 2020-02-16 22:04:30 · 119 阅读 · 0 评论 -
python数据分析之pandas(8)数据合并
1.merge函数指定合并列>>> import pandas as pd>>> frame1 = pd.DataFrame({'id': ['ball', 'pencil', 'pen', 'mug', 'ashtray'olor': ['white', 'red', 'red', 'black', 'green'], 'brand': ['OMG...原创 2020-02-15 21:17:12 · 292 阅读 · 0 评论 -
python数据分析之pandas(7)数据读写
pandas提供各种I/O API函数,这里把一些常用的方式分享给大家。1.读写csv文件frame = read_csv('a.csv')//返回DataFrame对象,相关参数如:names=['',''] 指定表头; header=None 使用默认表头;index_col=['color', 'status'],给前2列设置为层级索引frame.to_cs...原创 2020-02-14 22:34:51 · 127 阅读 · 0 评论 -
python数据分析之pandas(6)等级索引和分级
之前介绍的Series和DataFrame都是单条索引,其实还可以是多级索引。通过多级索引可以很方便的处理多维数据。注:ser指Series对象,frame指DataFrame对象1. Series多级索引>>> ser = pd.Series(np.arange(4), index=[['a', 'a', 'b', 'b'], ['i1', 'i2', 'i3']...原创 2020-02-14 21:48:40 · 1891 阅读 · 0 评论 -
python数据分析之pandas(5)排序、位次和NaN
排序和位次约定:ser指Series,frame值DataFrame1. 根据索引排序ser.sort_index() //索引升序ser.sort_index(ascending=False) //索引降序frame.sort_index(axis=1) //按列名排序,默认0为按索引行排序2.元素排序ser.order() //元素排序frame.sort_i...原创 2020-02-12 22:16:08 · 1241 阅读 · 0 评论 -
python数据分析之pandas(二)DataFrame对象
DataFrame对象DataFrame可以理解为一个由Series组成的字典,其中一列的名称为字典的键,Series为字典的值。一般可以直接通过字典或嵌套字典来构建DataFrame1. 定义DataFrame对象通过dict创建DataFrame,这里的color和object为columns名>>> data = {'color': ['r', 'g', ...原创 2020-02-10 21:50:25 · 388 阅读 · 0 评论 -
python数据分析之pandas(一)
Series对象1. 声明Series对象a.通过数组赋值>>> import pandas as pd>>> s = pd.Series([9,8,-1,2])>>> s0 91 82 -13 2dtype: int64b.设置index>>> s = pd.Ser...原创 2020-02-08 22:47:44 · 92 阅读 · 0 评论