02基础数据分析：Task01:数据加载及探索性数据分析

最新推荐文章于 2021-12-14 17:14:13 发布

VickuTT

最新推荐文章于 2021-12-14 17:14:13 发布

阅读量201

点赞数

分类专栏：动手数据分析

本文链接：https://blog.csdn.net/VickuTT/article/details/108071741

版权

动手数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第二期组队学习开始啦，这次在python基础上报名了动手数据分析，加油呀！希望在产出上相较第一期有一些进步~

学习内容概括

从数据的导入到观察数据特征到筛选特定目标数据，包括删除列显示特定位置的数据结果，获得数据的基本统计信息等等。
第一次的task难度不高，如果能附上数据可视化的话，会使得基本统计数据更直观。

程序和结果

import numpy as np
import pandas as pd

df = pd.read_csv('D:\\pythondata\\train.csv')
df.head(3)
# 在路径中尽量不要出现中文
chunker = pd.read_csv('D:\\pythondata\\train.csv', chunksize=1000)
df = pd.read_csv('D:\\pythondata\\train.csv',
                 names=['乘客ID','是否幸存','舱位等级','姓名','性别','年龄','兄弟姐妹','父母子女个数','船票信息','票价','客舱','登船港口'],index_col=0,header=0)
print(df.head())
df.info()#查看数据基本信息
print(df.head(10))
print(df.tail(15))
#查看前10和后15
print(df.isnull().head(10))
#检查数据是否为空，空的话返回True,不空返回False
df.to_csv('D:\\pythondata\\train_chinese.csv',encoding='utf-8')#保存

注释：1.在路径中尽量不要出现中文，路径用“\\”更不容易出错。
2.这些在遇到和内存一样大的数据时读取起来会比较困难，就可以用逐块读取和处理，用chunk,规定chunksize就可以。
3.在本身的列名称不易理解的情况下，可以用names进行重命名。
4.“.info”用于查看详细的信息
5.用“.isnull”可以判断数据中的空的部分，因为在统计分析中，对于空的部分可能需要进行处理才能继续运行。
6.在存储更改后的数据集时，最好用encoding来避免乱码的出现。

import numpy as np
import pandas as pd
sdata={'ohio':3500,'texas':7100,'oregon':1600,'utah':399}
example_1=pd.Series(sdata)
print(example_1)
data={'state':['ohio','ohio','ohio','Nevada','Nevada','Nevada'],
      'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
example_2=pd.DataFrame(data)
print(example_2)

注释：1.series是一维数组，可以保存各种数据类型，数据结构和List类似。
2.dataframe是二维表格型数据结构。可以认为是series的容器
3.pandas的两种数据结构就是series和dataframe

import numpy as np
import pandas as pd
df = pd.read_csv('D:\\pythondata\\train.csv')
print(df.head(3))
print(df.columns)#查看数据框的列的项
#两种查看特定列的具体项的方法
print(df.Cabin.head(3))
print(df['Cabin'].head(3))

#test1和train有一列的差距，下面需要删除特定列，对测试数据集进行删减
test_1=pd.read_csv('D:\\pythondata\\test_1.csv')
print(test_1.head(3))
del test_1['a']
print(test_1.head(3))

#对特定列进行隐藏
print(df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3))
#行的话是axis=1，列的话是axis=0

注释：1.对于收集上来的不同的数据集可能会需要进行删减列的操作，在列数过多的情况下也需要在观察时对部分列进行隐藏。
2.隐藏的时候axis=1代表行，axis=0代表列
3.在python中删除可以用del remove 和pop
remove只能删除一个指定的值，如果想要删除一列需要用循环来进行。
pop在列表中可用于删除最后一个元素，并且将删除的元素储存在pop中备用

import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randn(4,3),columns=["A","B","C"])
data=df.drop(["A"],axis=1,inplace=True)
print(df)
print(data)
#inplace = True：不创建新的对象，直接对原始对象进行修改；
#inplace = False：对数据进行修改，创建并返回新的对象承载其修改结果。
df=pd.DataFrame(np.random.randn(4,3),columns=["A","B","C"])
data=df.drop(["A"],axis=1,inplace=False)
print(df)
print(data)
#和浅拷贝和拷贝有些类似

注释：1.np.random.randn用来生成随机数
2.inplace = True：不创建新的对象，直接对原始对象进行修改；
inplace = False：对数据进行修改，创建并返回新的对象承载其修改结果。

import numpy as np
import pandas as pd
#在数据分析过程中有很重要的一步就是筛选
df = pd.read_csv('D:\\pythondata\\train.csv')
print(df[df['Age']<10].head(3))
#筛选数据重新命名
midage=df[(df['Age']>10)&(df['Age']<50)]
print(midage.head(3))
#merge和append可以用来取交集或者并集

注释:
1.df[‘列名’]可以用来说明
2.取交集或者并集可以用append或者merge来进行

#显示特定行的数据
midage=midage.reset_index(drop=True)#对筛选出来的数据重置索引
print(midage.head(3))
print(midage.loc[[100],['Pclass','Sex']])

print(midage)
#.loc是基于行标和纵标进行索引
print(midage.loc[[100,105,108],['Pclass','Name','Sex']])
#注意括号的填写
print(midage.iloc[[100,105,108],[2,3,4]])

注释：1.“.reset_index”很重要
2.“.loc”和“.iloc”区别在于前者索引用的是列的变量名，后者用的是列对应的列索引，不需要书写整个的变量名，更方便。两个都是给定位置，找到该位置代表的值。

import numpy as np
import pandas as pd

text = pd.read_csv('D:\\pythondata\\train_chinese.csv')
print(text.sort_values(by=['票价', '年龄'], ascending=False).head(20))
print(text.info)
print(max(text['兄弟姐妹'] + text['父母子女个数']))
print(text['票价'].describe())

注释：1.通过ascending来确定升序还是降序。
2.“.describe()”可以获得数据的基本统计信息，包含样本数，均值标准差，最小值最大值等等。

import numpy as np
import pandas as pd
frame=pd.DataFrame(np.arange(8).reshape((2,4)),index=['2','1'],columns=['d','a','b','c'])
print(frame)
print(frame.sort_values(by='c',ascending=False))#按c取值的降序排列
print(frame.sort_index(axis=1,ascending=False))#按索引降序排列

#算术运算与数据对齐
frame1_a=pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'],index=['one','two','three'])
frame1_b=pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','e','c'],index=['first','one','two','second'])
print(frame1_a)
print(frame1_b)
#直接相加好没意义啊

#数据基本统计信息
frame2=pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
print(frame2)
print(frame2.describe())