pandas入门

从pandas导入DataFrame,read_csv
将matplotlib.pyplot导入为plt
将pandas导入为pd
导入sys,os
导入matplotlib

##打印系统信息
#print(sys.version)
#print(pd .__ version__)
#print(matplotlib .__ version__)
##合并列
#names ='Bob Jessica Mary Mel'
#names = names.split()
#births = [968,155,77,578,973]
#BabyDataSet =列表(zip(名字,出生))
#print(BabyDataSet)
#写入csv文件
#df = pd.DataFrame(data = BabyDataSet,columns = ['names','birthday'])
#print(df)
#df.to_csv('birthday.csv',index = True,header = True)

##读取文件
#reader = r'/ home / martin / PycharmProjects / untitled / test.csv'
#df = pd.read_csv(reader,header = None)
#print(df)

##删除文件
#reader = r'/ home / martin / PycharmProjects / untitled / birthday.csv'
#os.remove(reader)

#输出类型
#print(df.dtypes)

#输出最大的前几个
#Sorted = df.sort_values(['birthday'],ascending = False)
#print(Sorted.head(3))
#print(df ['birthday']。max())

#画图
#df ['birthday']。plot()
#MaxValue = df ['birthday']。max()
#MaxName = df ['names'] [df ['birthday'] == df ['birthday']。max()]
#Text = str(MaxValue)+“,”+ MaxName
#plt.annotate(Text,xy =(1,MaxValue),xytext =(8,0),
#xycoords =('轴分数','数据'),textcoords ='偏移点')
# 
#print(“hello”)
#df [df ['birthday'] == df ['birthday']。max()]
#plt.show()
入门教程2

将pandas导入为pd
将matplotlib.pyplot导入为plt

抱怨= pd.read_csv('test.csv')
#打印(投诉)
#前5名
打印(抱怨[ '名称'] [:5])
print(抱怨[['Name','Pclass']] [:5])
complaint_counts =抱怨['姓名']。value_counts()
打印(complaint_counts [:5])
#画图
complaint_counts [:5] .plot(种类= '巴')
plt.show()
入门教程3



读取csv文件:

def open_file(path):
    data = pd.read_csv(path)
    return data

写入csv文件:

data.to_csv('hour2.csv')
print(data)

删除列中有空值的列:

data = data.dropna(axis=1, how='any')

修改DataFrame中某个数据:

df.iat[1,3]=4 #将1行3列值修改为4

删除索引:

df.reset_index(drop = True)

设置索引:

df = df.set_index('data1')

更改头部:

df.columns = ['data1','data2']

转换类型:

df['data1'] = pd.to_numeric(df['data1'])

更换索引:

df.index = pd.date_range(start='2017-08-28 9:30', end='2017-08-28 16:00', freq='1min')

找到缺失的行:

set(range(范围)) - set(df.index)

填充缺失行:

df = df.reindex(range(范围), method='ffill')

删除值为NaN行

.dropna()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas是一种基于NumPy的数据分析工具,它可以帮助我们对数据进行清洗、编辑和分析等工作。掌握Pandas的常规用法是构建机器学习模型的第一步。首先,我们需要安装Pandas。如果已经安装了Anaconda,可以直接使用Anaconda自带的包管理工具来安装Pandas。如果没有安装Anaconda,可以使用Python自带的包管理工具pip来安装Pandas,命令为pip install pandas。安装完成后,我们可以导入Pandas库并查询相应的版本信息。通常,我们还会导入NumPy库,因为Pandas和NumPy常常结合在一起使用。导入Pandas库的命令为import pandas as pd,导入NumPy库的命令为import numpy as np。要查询Pandas的版本信息,可以使用print(pd.__version__)命令。接下来,我们可以学习Pandas的数据类型,包括Series和DataFrame。Series是一种一维的数据结构,类似于数组或列表,而DataFrame是一种二维的数据结构,类似于表格。在学习Pandas的过程中,我们可以通过导入Excel数据、输出Excel数据、数据概览、数据查看、数据清洗、数据选择、数据排序、数据分组、数据透视、数据合并和数据可视化等操作来熟悉Pandas的用法。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [非常全面的Pandas入门教程](https://blog.csdn.net/weixin_44489066/article/details/89494395)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [pandas 快速入门教程](https://blog.csdn.net/down_12345/article/details/105345429)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值