Pandas知识点总结
总结Pandas数据处理120题知识点
数分小白龙
一名学习数分的小小白
展开
-
八、其他知识点
1 布林指标: 布林线(Boll)指标是股市技术分析的常用工具之一,通过计算股价的“标准差”,再求股价的“信赖区间”。该指标在图形上画出三条线,其中上下两条线可以分别看成是股价的压力线和支撑线,而在两条线之间还有一条股价平均线,布林线指标的参数最好设为20。一般来说,股价会运行在压力线和支撑线所形成的通道中。### 第一步:计算布林指标 ####第一步:计算MAN = 20 #布林线指标的参数最好设为20MA = data['收盘价(元)'].sum()/N#第二步:计算标准差...原创 2021-05-04 16:32:15 · 676 阅读 · 0 评论 -
七、数据的读取与保存
1 读取excel文件:pd.read_excel('./data/xxx.xlsx')2 读取csv文件:pd.read_csv()(1)读取前10行某两列数据:pd.read_csv('data1.csv', encoding='gbk', usecols=['positionName', 'salary'], nrows=10)(2)读取数据并在读取数据时将'xxx'列大于10000的为改为高:pd.read_csv('data2.csv', converters={'薪原创 2021-05-04 15:51:39 · 489 阅读 · 0 评论 -
六、数据(分组)计算
1 常用统计函数:df['xxx'].mean() # 均值df.mean().mean() # 全体平均数df[xxx'].median() # 中位数df[xxx'].var() # 方差df[xxx'].std() # 标准差max(),min() # 最大(小)值2 diff()函数:计算上下行差值:# 方法一:Series.diff()df['xxx'].diff()# 方法二:shift(1)diff = df['xxx'] - df['xxx'].shift(原创 2021-05-04 15:45:18 · 1186 阅读 · 0 评论 -
五、数据处理
1 缺失值判断/填充/设置/删除:(1)判断缺失值:# 检查数据中是否含有任何缺失值:df.isnull().values.any()# 查看每列数据缺失值:df.isnull().sum()# 查看每列非缺失值数:df.notnull().sum()df.shape[0] - df.isnull().sum()(2)缺失值填充:# 用上下平均值填充:df['xxx'] = df['xxx'].fillna(df['xxx'].interpolate())# df .原创 2021-05-04 11:15:23 · 707 阅读 · 0 评论 -
四、提取满足条件的行列
1 提取具体单行列,多行列数据:(1)提取单行数据:df.loc[32]df.iloc[32,:]df.iloc[32](2)提取单列数据:df[['xxx']](3)提取多列数据:#1.提取xxx1, xxx2, xxx3列数据:df[['xxx1', 'xxx2', 'xxx3']]#2.提取除倒数后三列之外的全部列数据:df.iloc[:, : -3](4)提取第一列位置再1,10,15的数字:#方法一:df.iloc[[1, 10, 15], 0原创 2021-05-04 10:55:58 · 2033 阅读 · 0 评论 -
三、 数据框行列更改
1 设置索引:df.set_index('xxx')2 重置索引(行号):df.reset_index(drop = True, inplace = True) # drop = True:原有索引就不会成为新的列3 更改列名:#方法一:直接法df.columns = ['col1', 'col2', 'col3']#方法二:(使用rename()函数:修改指定修改某列或某几列名字)df.rename(columns={'0':'col1', '1':'col2', '2'原创 2021-05-04 10:35:59 · 630 阅读 · 0 评论 -
二、查看数据基本信息
(1)查看前(后)x行数据:#前x行:df.head(x)#后x行:df.tail(x)df.iloc[-x:, :](2)查看所有列名:df.columns(3)查看数据行列数:df.shape(4)查看行数:#方法一:df.shape[0]#方法二;len(df)(5)查看列数:#方法一:len(df.columns)#方法二:df.shape[1]#方法三:df.info()(6)查看索引、数据类型和内存信息:df.inf原创 2021-05-04 10:18:41 · 1160 阅读 · 0 评论 -
一、创建DataFrame及Numpy基础操作
1. 创建DateFrame:(1)字典法:data = {"grammer":['Python', 'C', 'Java', 'GO', np.NaN, 'SQL', 'PHP', 'Python'], "score":[1.0, 2.0, np.NaN, 4.0, 5.0, 6.0, 7.0, 10.0]}df = pd.DataFrame(data)df(2)Series:pd.DataFrame(pd.Series(np.random.randint(1, 10原创 2021-05-04 10:04:00 · 5453 阅读 · 0 评论