如何将多个一维列表转化为二维列表_数据分析2_如何处理一维、二维数据

最新推荐文章于 2023-04-17 11:21:56 发布

weixin_39674414

最新推荐文章于 2023-04-17 11:21:56 发布

阅读量1.1k

点赞数

文章标签：如何将多个一维列表转化为二维列表获取2位数的月份

吞一块大饼，还不如切成小块吃得香

常见的数据集，要么是数列，要么是表格；

因此，数据分析最首要的是，处理一维、二维数据。

主要知识点可参考如图。

如需要，可点击以下百度网盘链接下载数据分析基础知识图PDF：

mindmap2_数据分析基础.pdf

308.7K

百度网盘

数据分析常用第三方包

Numpy
Pandas
Matplotlib

#导入numpy包
import numpy as np
#导入pandas包
import pandas as pd

1. 一维数据

Numpy（Numerical Python）: Array
Pandas: Series

1.1 Numpy-Array

#定义：一维数组array
#参数:一个列表[2,3,4,5]
a = np.array([2,3,4,5])

#查询
a[0]
2

#切片访问：获取指定序号范围的元素
#a[1:3]获取到的是序号从1到3的元素
a[1:3]
array([3, 4])

#切片访问：反序
a[::-1]
array([5, 4, 3, 2])

#循环访问
for i in range(len(a)):
    print(a[i])
2
3
4
5

#循环访问
for i in a:  # 获取a数组里面的数据，从i=2开始
    print(a[i-2])
2
3
4
5

#循环访问
for i in a:
    print(i)
2
3
4
5

#查看数据类型
a.dtype
dtype('int32')

#统计计算:平均值
a.mean()
3.5

#统计计算:标准差
a.std()
1.118033988749895

#向量化计算：向量相加
b=np.array([1,2,3])
c=np.array([4,5,6])
b+c
array([5, 7, 9])

#向量化计算：乘以标量
d=b*4
d
array([ 4,  8, 12])

区别：Numpy数组&Python列表

1.处理多维数组
- ndArray
- list嵌套
2.存储、运算效率
- Array > list
3.元素数据类型
- Array：必须相同
- List：可不同

1.2 Pandas-Series

#定义：一维数据结构:Series，index为索引
#存放6家公司某一天的股价（单位是美元）
stockS=pd.Series([54.74,190.9,173.14,1050.3,181.86,1139.49],
                index=['腾讯',
                       '阿里巴巴',
                       '苹果',
                       '谷歌',
                       'Facebook',
                       '亚马逊'])
stockS

#获取描述统计信息
stockS.describe()

统计信息含义如下

数据条数count
平均值mean
标准差std
最小值min下四位数25%
中位数50%
上四位数75%
最大值max

#访问：iloc属性用于根据下标获取值
stockS.iloc[0]
54.74

#访问：loc属性用于根据索引获取值
stockS.loc['腾讯']
54.74

#向量化运算：向量相加
s1=pd.Series([1,2,3,4],index=['a','b','c','d'])
s2=pd.Series([10,20,30,40],index=['a','b','e','f'])
s3=s1+s2
s3

#处理空值的方法
#方法1：删除
s3.dropna()

#方法2：填充
s3=s1.add(s2,fill_value=0)
s3

2.二维数据

Numpy: Array
Pandas: DataFrame
DataFrame处理表格数据比较方便

2.1 Numpy-Array

#定义二维数组
a=np.array([
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12]
])

#访问：获取元素
#行号0，列号2
a[0,2]
3

#访问：整行
#获取第1行
a[0,:]
array([1, 2, 3, 4])

#访问：整列
#获取第1列
a[:, 0]
array([1, 5, 9])

#数轴参数 axis
#axis=0，down，纵向处理
#axis=1，across，横向处理

#所有平均值
print(a.mean())

#每行平均值，即每一行取所有列的平均值
print(a.mean(axis=1))

#删除某一列，即列（集）沿着水平的方向依次删掉
#a.drop(colNames,axis=1)

6.5
[ 2.5  6.5 10.5]

2.2 Pandas-DataFrame

#定义
#第1步：定义一个字典，映射列名与对应列的值
#现Python3的字典对象为有序
salesDict={
    '购药时间':['2018-01-01 星期五','2018-01-02 星期六','2018-01-06 星期三'],
    '社保卡号':['001616528','001616528','0012602828'],
    '商品编码':[236701,236701,236701],
    '商品名称':['强力VC银翘片','清热解毒口服液','感康'],
    '销售数量':[6,1,2],
    '应收金额':[82.8,28,16.8],
    '实收金额':[69,24.64,15]
}

#第2步：定义数据框DataFrame
salesDf=pd.DataFrame(salesDict)
salesDf

#平均值：是按每列来求平均值
salesDf.mean()

#访问：iloc属性用于根据下标获取值
#查询第1行第2列的元素
salesDf.iloc[0,1]
'001616528'

#获取第1行，:代表所有列
salesDf.iloc[0,:]

#获取第1列，:代表所有行
salesDf.iloc[:,0]

#访问：loc属性用于根据索引名获取值
#查询第1行商品编码列的元素
salesDf.loc[0,'商品编码']
236701

#获取“商品名称”这一列
#salesDf.loc[:,'商品名称']
salesDf['商品名称']  #简单方法

3.查询操作

3.1 查询列

#指定列
#通过列表来选择某几列的数据
salesDf[['商品名称','销售数量']]

#指定连续的列
#通过切片功能，获取指定范围的列
salesDf.loc[:,'购药时间':'销售数量']

3.2 条件筛选

#第1步：构建查询条件，对象是Series，数据元素是bool
querySer=salesDf.loc[:,'销售数量']>1
type(querySer)
pandas.core.series.Series

querySer

#第2步：应用查询条件
#只能指定列
#Error：salesDf.loc[:,querySer]
salesDf.loc[querySer]

salesDf.loc[querySer,'商品编码':'销售数量']

#多个条件删选
querySer1=salesDf.loc[:,'商品名称']!='感康'
salesDf.loc[querySer1&querySer]

Queenie：数据分析1_入门Pythonzhuanlan.zhihu.com

weixin_39674414

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何将多个一维列表转化为二维列表_数据分析2_如何处理一维、二维数据

吞一块大饼，还不如切成小块吃得香常见的数据集，要么是数列，要么是表格；因此，数据分析最首要的是，处理一维、二维数据。主要知识点可参考如图。如需要，可点击以下百度网盘链接下载数据分析基础知识图PDF：mindmap2_数据分析基础.pdf308.7K · 百度网盘数据分析常用第三方包NumpyPandasMatplotlib#导入numpy包import numpy as np#导入pandas...
复制链接

扫一扫