pandas

最新推荐文章于 2024-06-18 16:00:24 发布

__meteor

最新推荐文章于 2024-06-18 16:00:24 发布

阅读量144

点赞数 1

分类专栏：数据挖掘

数据挖掘专栏收录该内容

21 篇文章 0 订阅

订阅专栏

python
pandas基本函数

查看数据
.head() .tail() .shape .describe()

矩阵运算
.add() .sub() .mul() .div() .divmod() .combine()

矩阵比较
.eq() .ne() .lt() .gt() .le() .ge()|.empty .any() .all() .bool()

数据框连接
.align() .merge() .join() .concatenate()

设置行名列名
.column .reindex() .reindex_like()|.rename()

列操作
.drop() .insert() .assign()

数据类型
.dtypes .get_dtype_counts() .astype() .to_numeric()… .select_dtypes()

数据运算
.pipe() .apply() .applymap()

统计运算
.cut() .qcut() .idxmin() .idxmax() .value_counts() .sum()…

排序
.sort_index() .sort_values() .nsmallest() .nlargest()

其他
.dt Iteration .copy() .info()

三、pandas操作Excel的行列

1：读取指定的单行，数据会存在列表里面

#1：读取指定行
df=pd.read_excel('lemon.xlsx')#这个会直接默认读取到这个Excel的第一个表单
data=df.ix[0].values#0表示第一行 这里读取数据并不包含表头，要注意哦！
print("读取指定行的数据：\n{0}".format(data))

得到的结果如下所示:

2：读取指定的多行，数据会存在嵌套的列表里面：

df=pd.read_excel('lemon.xlsx')
data=df.ix[[1,2]].values#读取指定多行的话，就要在ix[]里面嵌套列表指定行数
print("读取指定行的数据：\n{0}".format(data))

3：读取指定的行列：

df=pd.read_excel('lemon.xlsx')
data=df.ix[1,2]#读取第一行第二列的值，这里不需要嵌套列表
print("读取指定行的数据：\n{0}".format(data))

4：读取指定的多行多列值：

df=pd.read_excel('lemon.xlsx')
data=df.ix[[1,2],['title','data']].values#读取第一行第二行的title以及data列的值，这里需要嵌套列表
print("读取指定行的数据：\n{0}".format(data))

5：获取所有行的指定列

df=pd.read_excel('lemon.xlsx')
data=df.ix[:,['title','data']].values#读所有行的title以及data列的值，这里需要嵌套列表
print("读取指定行的数据：\n{0}".format(data))

6：获取行号并打印输出

df=pd.read_excel('lemon.xlsx')
print("输出行号列表",df.index.values)

输出结果是：
输出行号列表 [0 1 2 3]

7：获取列名并打印输出

df=pd.read_excel('lemon.xlsx')
print("输出列标题",df.columns.values)

运行结果如下所示：
输出列标题 ['case_id' 'title' 'data']

8：获取指定行数的值：

df=pd.read_excel('lemon.xlsx')
print("输出值",df.sample(3).values)#这个方法类似于head()方法以及df.values方法

输出值
 [[2 '输入错误的密码' '{"mobilephone":"18688773467","pwd":"12345678"}']
 [3 '正常充值' '{"mobilephone":"18688773467","amount":"1000"}']
 [1 '正常登录' '{"mobilephone":"18688773467","pwd":"123456"}']]

9：获取指定列的值：

df=pd.read_excel('lemon.xlsx')
print("输出值\n",df['data'].values)

四：pandas处理Excel数据成为字典

我们有这样的数据，，处理成列表嵌套字典，且字典的key为表头名。

实现的代码如下所示：

df=pd.read_excel('lemon.xlsx')
test_data=[]
for i in df.index.values:#获取行号的索引，并对其进行遍历：
    #根据i来获取每一行指定的数据 并利用to_dict转成字典
    row_data=df.ix[i,['case_id','module','title','http_method','url','data','expected']].to_dict()
    test_data.append(row_data)
print("最终获取到的数据是：{0}".format(test_data))

最后得到的结果是：

最终获取到的数据是：
[{'title': '正常登录', 'case_id': 1, 'data': '{"mobilephone":"18688773467","pwd":"123456"}'}, 
{'title': '输入错误的密码', 'case_id': 2, 'data': '{"mobilephone":"18688773467","pwd":"12345678"}'}, 
{'title': '正常充值', 'case_id': 3, 'data': '{"mobilephone":"18688773467","amount":"1000"}'}, 
{'title': '充值输入负数', 'case_id': 4, 'data': '{"mobilephone":"18688773467","amount":"-100"}'}]