02基础数据分析:Task01:数据加载及探索性数据分析

第二期组队学习开始啦,这次在python基础上报名了动手数据分析,加油呀!希望在产出上相较第一期有一些进步~

学习内容概括

从数据的导入到观察数据特征到筛选特定目标数据,包括删除列显示特定位置的数据结果,获得数据的基本统计信息等等。
第一次的task难度不高,如果能附上数据可视化的话,会使得基本统计数据更直观。

程序和结果

import numpy as np
import pandas as pd

df = pd.read_csv('D:\\pythondata\\train.csv')
df.head(3)
# 在路径中尽量不要出现中文
chunker = pd.read_csv('D:\\pythondata\\train.csv', chunksize=1000)
df = pd.read_csv('D:\\pythondata\\train.csv',
                 names=['乘客ID','是否幸存','舱位等级','姓名','性别','年龄','兄弟姐妹','父母子女个数','船票信息','票价','客舱','登船港口'],index_col=0,header=0)
print(df.head())
df.info()#查看数据基本信息
print(df.head(10))
print(df.tail(15))
#查看前10和后15
print(df.isnull().head(10))
#检查数据是否为空,空的话返回True,不空返回False
df.to_csv('D:\\pythondata\\train_chinese.csv',encoding='utf-8')#保存

注释:1.在路径中尽量不要出现中文,路径用“\\”更不容易出错。
2.这些在遇到和内存一样大的数据时读取起来会比较困难,就可以用逐块读取和处理,用chunk,规定chunksize就可以。
3.在本身的列名称不易理解的情况下,可以用names进行重命名。
4.“.info”用于查看详细的信息
5.用“.isnull”可以判断数据中的空的部分,因为在统计分析中,对于空的部分可能需要进行处理才能继续运行。
6.在存储更改后的数据集时,最好用encoding来避免乱码的出现。

import numpy as np
import pandas as pd
sdata={'ohio':3500,'texas':7100,'oregon':1600,'utah':399}
example_1=pd.Series(sdata)
print(example_1)
data={'state':['ohio','ohio','ohio','Nevada','Nevada','Nevada'],
      'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
example_2=pd.DataFrame(data)
print(example_2)

注释:1.series是一维数组,可以保存各种数据类型,数据结构和List类似。
2.dataframe是二维表格型数据结构。可以认为是series的容器
3.pandas的两种数据结构就是series和dataframe

import numpy as np
import pandas as pd
df = pd.read_csv('D:\\pythondata\\train.csv')
print(df.head(3))
print(df.columns)#查看数据框的列的项
#两种查看特定列的具体项的方法
print(df.Cabin.head(3))
print(df['Cabin'].head(3))

#test1和train有一列的差距,下面需要删除特定列,对测试数据集进行删减
test_1=pd.read_csv('D:\\pythondata\\test_1.csv')
print(test_1.head(3))
del test_1['a']
print(test_1.head(3))

#对特定列进行隐藏
print(df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3))
#行的话是axis=1,列的话是axis=0

注释:1.对于收集上来的不同的数据集可能会需要进行删减列的操作,在列数过多的情况下也需要在观察时对部分列进行隐藏。
2.隐藏的时候axis=1代表行,axis=0代表列
3.在python中删除可以用del remove 和pop
remove只能删除一个指定的值,如果想要删除一列需要用循环来进行。
pop在列表中可用于删除最后一个元素,并且将删除的元素储存在pop中备用

import pandas as pd
import numpy as np
df=pd.DataFrame(np.random.randn(4,3),columns=["A","B","C"])
data=df.drop(["A"],axis=1,inplace=True)
print(df)
print(data)
#inplace = True:不创建新的对象,直接对原始对象进行修改;
#inplace = False:对数据进行修改,创建并返回新的对象承载其修改结果。
df=pd.DataFrame(np.random.randn(4,3),columns=["A","B","C"])
data=df.drop(["A"],axis=1,inplace=False)
print(df)
print(data)
#和浅拷贝和拷贝有些类似

注释:1.np.random.randn用来生成随机数
2.inplace = True:不创建新的对象,直接对原始对象进行修改;
inplace = False:对数据进行修改,创建并返回新的对象承载其修改结果。

import numpy as np
import pandas as pd
#在数据分析过程中有很重要的一步就是筛选
df = pd.read_csv('D:\\pythondata\\train.csv')
print(df[df['Age']<10].head(3))
#筛选数据重新命名
midage=df[(df['Age']>10)&(df['Age']<50)]
print(midage.head(3))
#merge和append可以用来取交集或者并集

注释:
1.df[‘列名’]可以用来说明
2.取交集或者并集可以用append或者merge来进行

#显示特定行的数据
midage=midage.reset_index(drop=True)#对筛选出来的数据重置索引
print(midage.head(3))
print(midage.loc[[100],['Pclass','Sex']])

print(midage)
#.loc是基于行标和纵标进行索引
print(midage.loc[[100,105,108],['Pclass','Name','Sex']])
#注意括号的填写
print(midage.iloc[[100,105,108],[2,3,4]])

注释:1.“.reset_index”很重要
2.“.loc”和“.iloc”区别在于前者索引用的是列的变量名,后者用的是列对应的列索引,不需要书写整个的变量名,更方便。两个都是给定位置,找到该位置代表的值。

import numpy as np
import pandas as pd

text = pd.read_csv('D:\\pythondata\\train_chinese.csv')
print(text.sort_values(by=['票价', '年龄'], ascending=False).head(20))
print(text.info)
print(max(text['兄弟姐妹'] + text['父母子女个数']))
print(text['票价'].describe())

注释:1.通过ascending来确定升序还是降序。
2.“.describe()”可以获得数据的基本统计信息,包含样本数,均值标准差,最小值最大值等等。

import numpy as np
import pandas as pd
frame=pd.DataFrame(np.arange(8).reshape((2,4)),index=['2','1'],columns=['d','a','b','c'])
print(frame)
print(frame.sort_values(by='c',ascending=False))#按c取值的降序排列
print(frame.sort_index(axis=1,ascending=False))#按索引降序排列

#算术运算与数据对齐
frame1_a=pd.DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'],index=['one','two','three'])
frame1_b=pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','e','c'],index=['first','one','two','second'])
print(frame1_a)
print(frame1_b)
#直接相加好没意义啊

#数据基本统计信息
frame2=pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
print(frame2)
print(frame2.describe())

注释:range生成list arange生成
arange()生成array,生成等差一位数组,进行重塑,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值