Python pandas & numpy 笔记

记性不好,多记录些常用的东西,真·持续更新中::
先列出一些常用的网址:

习惯上我们如此导入:

import pandas as pd
import numpy as np
import maplotlib.pyplot as plt
pandas 篇

pd.Series是一种一维的数组结构,可以列表形式初始化,得到的Series的index默认∈[0,n)

s = pd.Series([1, 3, 5, np.nan, 6, 8])

pandas的index、columns用list初始化,具体内容用矩阵初始化DataFrame:

pd.date_range('20160101',periods=6)
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

dates = pd.date_range('20190101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
查看数据:
# 查看前n行 后n行
df.head(n)     df.tail(n)
# 查看快速统计摘要,注意describe也是一个df
df.describe()
# 转置 按轴排序(0x1y),按列'B'的值排序
df.T
df.sort_index(axis=1, ascending=False)
df.sort_values(by='B')
选择数据
# 选择独列 [0,3)行 [0,3)列
df['A']    df[0:3]  df.iloc[;, [0, 1, 2]]
# 选择A B列还可以:
df.loc[:, ['A', 'B']]
# 获取dates[0]行的'A'列
df.loc[dates[0], 'A']
# loc前面加i表示利用数字而非名称来操作,比如取第3列
df.iloc[3]
# 比如取[3, 5)行的[0, 2)列:
df.iloc[3:5, 0:2]
# 行与列的切片:
df.iloc[1:3, :]  和 df.iloc[:, 1:3]
# 布尔索引 A列>0者, E列元素为'two' 或者 'four' 者
df[df.A > 0]   和 df[df['E'].isin(['two', 'four'])]
# 利用numpy 设置一组值
df.loc[:, 'D'] = np.array([5] * len(df))
# 利用where对某些值进行处理,比如大于0的取反
df[df>0] = -df
# 缺失数据的操作
df.dropna(how='any') 或者 df.fillna(value=5)
# 在不同轴上进行统计,mean是均值,一样0x1y
df.mean()   或者 df.mean(1)
# 数据应用于数据,例如累加,或者是lamda表达式
df.apply(np.cumsum)  或 df.apply(lambda x: x.max() - x.min())
# 排序数据

df.sort_values(by='columnsName')

# 单独设置某一列的属性

df[['ISP']] = df[['ISP']].astype(int)
合并操作
# 如果是df组成的List,直接可以concat
pieces = [df1, df2, df3]
# ig..index 决定是否要重置index
pd.concat(pieces, ignore_index=True),注意要列同质
# SQL风格的merge 类似于Join连接
pd.merge(left, right, on='key')
# 尾随hh 是往后面添加,用appen,注意参数ignore_index=True才会重排index
df1.append(df2, ignore_index=True)

###### Grouping操作 和 Pivot 表
df.groupby('A') 或者多个的话 df.groupby(['A', 'B'])
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
处理丢失数据
# 直接去掉nan所在的行or列,干脆利落
df.dropna(
    axis=0, # 行0列1
    how='any' # any但凡有nan就弃,all必须全nan才弃
)
# 填充
df.fillna(value=0)
# 判断是否有缺失数据,返回一个T/F的df
df.isnull()
# 判断是否有NaN,有就返回True
np.any(df.isnull()) == True
数据导入导出系列
import pandas as pd
# 读写csv,header决定是否有colums列说明
data = pd.read_csv('xxx.csv', header=None)
# sep是数据分隔的标记,默认是逗号
# index是否保留索引 默认保留
df.to_csv('xxx.csv', index=False, header=False, sep='?')
# 其它有用的参数有:
# na_rep="NA" 空值替换,默认是空格
# fload_format="%.2f" 数据保留2位小数
# 保留某些列而已 columns=['name', 'sex']
# 保存到pickle
data.to_pickle('xxx.pickle')
numpy 篇
# 创建数组
a = np.array([1,2,4])
# 指定数据类型 dtype
a = np.array([1,2,3]), dtype=np.float)
# 创建初始化好的x行y列的数组,如全0,全1等
np.zeros((x,y), dtype=np.int)  和 np.ones((x,y)), np.empty((x,y))
# 创建连续数组arange,1到100,步长为2
np.arange(1, 100, 2)
# reshape改变数据形状,注意要匹配得上
np.arange(15).reshape(3,5)
# linspace创建线形数据 [1,100]分成50份
np.linspace(1, 100, 50)
至于运算:
# 加减乘除都是点对点的,直接写就ok,比如
a-b  或者 a * b等
# 矩阵元素要乘方,用**,比如b^2
b**2
# 对数据进行逻辑判断,返回的是一个对应各个元素的True False组成的array
b < 3
# 矩阵点乘,随机矩阵,求sum min max
a.dot(b) 或者 np.dot(a, b)
np.random.random((2,4))
a.sum()  或 a.min() 或 a.max
Numpy array 合并
# 假设有np.array([1,1,1])和np.array([2,2,2])
np.vstack((A,B))  # [[1,1,1] [2,2,2]] vertival stack
np.hstack((A,B)) $ [1,1,1,2,2,2] horizontal stack
# array的转置,因为他不是矩阵,所以:
print(A[np.newaxis,;]) #[[1 1 1]]
print(A[np.newaxis,;].shape) # (1,3)
print(A[:,np.newaxis])
"""
[[1]
[1]
[1]]

"""
print(A[:,np.newaxis].shape)
# concatenate 函数会更统一一些,axis取0是成列,1成行
C.np.concatenate((A,B,B,A), axis=0)
D.np.concatenate((A,B,B,A), axis=1)
numpy的分割
A = np.arange(12).reshape(3,4)) # 3行4列
np.split(A, 2, axis=1) # 2行
np.split(A, 3, axis=3) # 3列
np.array_split(A, 3, axis=1) # 3行,不等量分割 即不均匀
# 方便地且对应地,有vsplit和hsplit
# v竖h横比如vsplit等于split(..., axis=0)
np.vsplit(A,3)
画图篇
# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

# Dataframe里,一列一条线,4条:
data = pd.DataFrame(
    np.random.randn(1000,4),
    index=np.arange(1000),
    columns=list("ABCD"))
data.cumsum()
data.plot()
plt.show()

# 对于经常需要画的dataframe的其他绘图形式: 

df.plot(kind='bar') # 柱状图

df.plot(kind='barh') # 横柱状图

df.plot(kind='bar', stacked=True) # 柱状图堆叠

df.plot(kind='area') 

# 如果想画的是df前10行的,行为x轴的变化:

for i in len(df):

  df.iloc[i].plot(label=str(i))

plt.legend()

plt.show()

具体的画图小技巧可以查这里
pandas除了plot,还有散点图scatter,柱状图bar,直方图hist,箱线图box,密度图kde,二维填充图area等。

说一下散点图scatter,最重要的就是指定x和y

ax=data.plot.scatter(x='A',y='B',color='DarkBlue',label='Class1')
# 将之下这个 data 画在上一个 ax 上面
data.plot.scatter(x='A',y='C',color='LightGreen',label='Class2',ax=ax)
plt.show()

转载于:https://www.cnblogs.com/Rosebud/p/10171031.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: numpy是一个高性能的科学计算库,用于处理大型数据集和矩阵运算。它是Python科学计算生态系统中最重要的库之一,提供了丰富的功能和工具。 在numpy的学习过程中,我创建了一个名为"numpy笔记.xmind"的思维导图来总结和记录重要的概念和函数。 首先,我在思维导图中列出了numpy的基本数据结构,包括多维数组(ndarray)、切片和索引。我理解了如何创建和操作这些数据结构,以及如何使用切片和索引访问数组中的元素。 其次,在思维导图中,我详细记录了numpy中的常用函数和方法。这些函数包括数学运算(如加法、乘法和指数运算)、统计函数(如平均值、标准差和方差)和数组操作(如形状变换、拼接和切割)。对于每个函数,我还注明了其参数和用法,以便以后参考。 此外,我还在思维导图中添加了numpy的广播功能和ufunc函数。广播允许我们在不同形状的数组之间进行元素级别的操作,而ufunc函数则可以对数组进行逐元素的函数调用。对于这两个功能,我记录了它们的应用场景和使用方法。 最后,我在思维导图中补充了一些numpy的高级特性和应用,如随机数生成、文件IO以及与其他科学计算库(如pandas和matplotlib)的集成。这些特性和应用使numpy成为了进行数据分析和科学计算的重要工具。 通过创建和总结"numpy笔记.xmind"这个思维导图,我能够更好地理解和掌握numpy的知识。这份笔记将成为我学习和使用numpy的重要参考资料,帮助我在科学计算和数据分析的过程中提高效率和准确性。 ### 回答2: numpy(Numerical Python)是Python中用于进行科学计算的一个库。它提供了丰富的高性能数值计算工具,特别是对于大规模多维数组的操作。下面是关于numpy的一些笔记。 1. 数组的创建:numpy使用ndarray对象来存储多维数组。可以使用numpy.array()函数创建数组,也可以使用numpy.zeros()、numpy.ones()等函数创建特定初始值的数组。 2. 数组的属性:可以使用ndarray的属性来获取数组的形状、大小、数据类型等信息。例如,shape属性可以得到数组的维度大小,dtype属性可以得到数组的数据类型。 3. 数组的索引和切片:可以通过索引来访问数组中的元素。numpy中的索引从0开始,可以使用负数表示相对于数组尾部的位置。切片可以用来获取数组的部分元素。可以使用冒号分隔切片的起始、结束和步长值。 4. 数组的运算:numpy支持对数组的逐元素运算,包括加减乘除、求幂、取余等。可以使用numpy的函数进行常见的数学运算,也可以使用ndarray对象的方法进行相应的操作。 5. 广播:numpy中的广播机制可以自动处理形状不一致的数组之间的运算。广播可以使得形状不一致的数组能够按需扩展以便进行元素运算,而不需要进行明确的形状调整操作。 6. 数组的重塑和转置:可以使用reshape()函数对数组进行重新排列,改变其形状。transpose()函数可以用来进行数组的转置操作。 7. 数组的聚合操作:numpy提供了很多用于数组聚合操作的函数,例如对数组进行求和、求平均、求最大最小值等。 8. 数组的存储和读取:可以使用numpy提供的函数将数组保存到文件中,也可以使用numpy的load()函数从文件中加载数组。 以上是关于numpy的一些基础笔记numpy在科学计算、数据分析等领域具有广泛的应用。掌握numpy的基本操作和常用函数,能够更高效地进行数值计算和数据处理任务。 ### 回答3: numpy是一个开源的Python库,提供了高效的多维数组对象以及对数组操作的函数。笔记.xmind是一种思维导图的文件格式。结合两者,我可以将numpy的使用方法和相关概念通过思维导图的方式记录下来。 在笔记.xmind中,我可以使用中心主题表示numpy,然后通过子主题展开numpy的各个方面。例如,我可以创建一个子主题来介绍numpy的数组对象,包括数组的创建、形状、类型等信息。另外,我还可以创建子主题来记录numpy数组操作的函数,例如数组的索引与切片操作、数组的运算操作等。在每个子主题中,我可以使用节点来记录具体的代码示例,以及相关的说明和注意事项。 除了记录numpy的使用方法外,我还可以创建子主题来介绍numpy中的常用概念和特性。例如,我可以创建一个子主题来介绍numpy中的广播机制,以及在数组运算中的应用。另外,我还可以创建子主题来介绍numpy中的向量化操作和矩阵运算,以及其在科学计算中的重要性。 在整个思维导图中,我可以使用不同的颜色、字体和图标来区分不同的主题或节点,以便更好地组织和呈现信息。可以使用箭头来表示不同主题之间的关系,例如通过箭头表示某个主题是另一个主题的子主题或相关主题。 通过将numpy的使用方法和相关概念以思维导图的形式记录在笔记.xmind中,我可以更清晰地了解和掌握numpy的知识,并且可以随时查阅和复习。这样可以帮助我更好地应用numpy进行数据分析和科学计算,并提高工作效率和代码质量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值