pandas基础
GJ_WL
这个作者很懒,什么都没留下…
展开
-
pandas10_高级处理_分组与聚合
import numpy as npimport pandas as pd分组与聚合DataFrame.groupby(key, as_index=False)as_index=False添加一列索引,默认为truekey:分组的列数据,可以多个# 案例:不同颜色的不同笔的价格数据col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','a原创 2020-09-16 16:00:31 · 252 阅读 · 0 评论 -
pandas9_高级处理_交叉表和透视表
import numpy as npimport pandas as pd交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)pd.crosstab(value1, value2)透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数DataFrame.pivot_table([], index=[])一、使用pd.crosstab()案例分析数据准备data = pd.read_csv原创 2020-09-16 15:59:26 · 204 阅读 · 0 评论 -
Pandas8_高级处理-数据离散化和数据合并
import numpy as npimport pandas as pd数据离散化什么是数据离散化?连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。离散化有很多种方法,这使用一种最简单的方式去操作,例如:原始人的身高数据:165,174,160,180,159,163,192,184假设按照身高分几个区间段:150~165, 165180,180195这样我们将数据分到了三个区间段,我可以对原创 2020-09-16 15:58:16 · 250 阅读 · 0 评论 -
Pandas7_高级处理-缺失值NaN处理
import numpy as npimport pandas as pd电影数据缺失值的处理获取电影数据movie = pd.read_csv("./data/IMDB-Movie-Data.csv")# 缺失值类型是float型type(np.NaN)float判断缺失值是否存在pd.notnull()pd.notnull(movie) Rank Title Genre Descripti原创 2020-09-16 15:57:27 · 1292 阅读 · 0 评论 -
Pandas6_文件的读取和存储
import pandas as pd我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作pandas的API支持众多的文件格式,例如CSV,SQL,XLS,JSON,HDF5CSV文件read_csv 读取文件pandas.read_csv(filepath_or_buffer,sep =’,’,usecols)filepath_or_buffer:文件路径sep:分隔符,默认用“,”替换usecols:指定重新读取的列名,列表形式# 读取文件,并且指定只获取'原创 2020-09-16 15:44:13 · 293 阅读 · 0 评论 -
Pandas5_画图
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltpandas画图对象.plot(kind=类型)line——折线图bar——柱状图barh——旋转90度的柱状图hist——直方图pie ——饼图scatter——散点图date1 = pd.date_range('2020-7-1', '2020-7-20')col = ['open', 'high', 'close', 'low', 'vo原创 2020-09-16 15:40:30 · 161 阅读 · 0 评论 -
Pandas4_DataFream运算
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdate1 = pd.date_range('2020-7-1', '2020-7-20')col = ['open', 'high', 'close', 'low', 'volume', 'price_change', 'p_change', 'turnover']data = pd.DataFrame(np.random.randn(20, 8原创 2020-09-16 15:34:53 · 222 阅读 · 0 评论 -
Pandas3_基本数据操作
import numpy as npimport pandas as pddate1 = pd.date_range('2020-7-1', '2020-7-20')col = ['open', 'high', 'close', 'low', 'volume', 'price_change', 'p_change', 'turnover']data = pd.DataFrame(np.random.randn(20, 8), index=date1, columns=col)dat原创 2020-09-16 15:25:30 · 242 阅读 · 0 评论 -
Pandas1_介绍
Pandas介绍2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构Pandas优势增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算...原创 2020-09-16 15:08:23 · 145 阅读 · 0 评论