机器学习之----Pandas(3)

最新推荐文章于 2022-09-29 11:31:49 发布

niunai96

最新推荐文章于 2022-09-29 11:31:49 发布

阅读量202

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/niunai96/article/details/79749762

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Dataframe io 操作

import webbrowser
import pandas as pd
from pandas import Series,DataFrame

link='https://pandas.pydata.org/pandas-docs/version/0.20/io.html'
webbrowser.open(link)

df2=pd.read_clipboard()
df2

将df数据保存至文件

#将df数据保存至文件
df2.to_csv('df_file.csv',index=False)

#读取数据集
df3=pd.read_csv('df_file.csv')
df3

将df保存为json模式

#将df数据存储为json格式
df4=df2.to_json()
df4

#读取json数据
pd.read_json(df4)

重新读取出一个表（截图太大不放了）

df=pd.read_csv('data/movie_metadata.csv')
df

df.head() #默认5条
df.head(20)
df.tail(10)
df.shape  #（行，列）
df.shape[0]  #行数

查数据集的相关信息, iloc--是按照行号查找，loc--是按照行索引查找，相同点：都可以查询多行和多列

a=DataFrame(df,columns=['color','director_name','num_critic_for_reviews'])

df2=df[['color','director_name','num_critic_for_reviews']]#多个列
#指定行
df3=df2.iloc[10:20,0:2]#指定列
df3

df3.loc[12:17]  #是按原索引值提取

如果自己想建一个.csv文件然后读取里面的数，要先将excel的后缀改为.csv，保存选择CSV格式，然后用记事本打开，再另存为utf-8的格式

import webbrowser
import pandas as pd
from pandas import Series,DataFrame
a=pd.read_csv('student1.csv')
a

a.head(5)

#a1=DataFrame(a,index=[1,2,4,5,7])
a1=a.iloc[[1,2,4,5,7],:]
a1

#a2=a1[['name','hight','weight']]
a2=a.loc[[1,2,4,5,7],['name','hight','weight']]
a2

a4=a[a.sex=='female']
a4

#a5=a4[a4.age>20]
a5=a[(a.sex=='female')&(a.age>20)]
a5

#a6=DataFrame(a4,columns=['name','hight','weight'])
a6=a[(a.sex=='female')&(a['age']>20)][['name','hight','weight']]
#a6=a[(a.sex=='female')&(a['age']>20)]['name']
a6