【数据分析11天打卡DAY1】第一章数据载入及初步观察1.4-1.6

最新推荐文章于 2024-10-11 12:43:07 发布

vegetable6

最新推荐文章于 2024-10-11 12:43:07 发布

阅读量227

点赞数

分类专栏：笔记文章标签：数据分析 pandas python

本文链接：https://blog.csdn.net/vegetable6/article/details/126829783

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文详细介绍了Pandas库在数据载入、筛选逻辑及探索性数据分析方面的应用。通过实例展示了如何创建和操作Series及DataFrame，包括从CSV文件加载数据、删除多余列、筛选特定条件的数据行、排序数据以及进行算术计算。此外，还探讨了如何利用Pandas进行数据统计分析，如计算最大家庭人数、查看数据统计信息并绘制直方图。

摘要由CSDN通过智能技术生成

1.4数据载入

http://c.biancheng.net/pandas/series.html

Series
1.
pd. Series([1,2,3,4],index=[‘a’,‘b’,‘c’,‘d’])
pd. Series(np.random.randn(4),index=[‘a’,‘b’,‘c’,‘d’])

Series 可以用字典实例化：
pd. Series({‘b’: 1, ‘a’: 0, ‘c’: 2})

Series创建DataFrame对象
d = {‘one’ : pd.Series([1, 2, 3], index=[‘a’, ‘b’, ‘c’]),
‘two’ : pd.Series([1, 2, 3, 4], index=[‘a’, ‘b’, ‘c’, ‘d’])}

df = pd.DataFrame(d)
one，two变成DataFrame的列

查看DataFrame数据的每列的项
df.columns
输出表头

'cabin’这一列所有项输出
df.Cabin
或者
df[‘Cabin’]

加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除
加载
test_1=pd.read_csv(‘test_1.csv’)
test_1.head()
删除
del test_1[‘a’]
或者
test_1.pop(‘a’)
test_1.head()
或者
test_1=pd.read_csv(‘test_1.csv’)
test_1.drop([‘a’],axis=1)
test_1.head()
这是一个副本
test_1.drop([‘a’],axis=1,inplace=True)
这是一个真的

6.将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

test_1=pd.read_csv(‘test_1.csv’)
test_1.drop([‘PassengerId’,‘Name’,‘Age’,‘Ticket’],axis=1)
test_1.head()
这是一个副本

1.5 筛选的逻辑

1.以"Age"为筛选条件，显示年龄在10岁以下的乘客信息
test_1[test_1[‘Age’]<10]

以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage=test_1[(test_1[‘Age’]>10)&(test_1[‘Age’]<50)]
这是交集&

|这是并集的符号就是or

3.将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

重新设置索引
midage1=midage.reset_index(drop=True)
midage1.to_csv(‘midage1.csv’)
midage.loc[[100],[‘Pclass’,‘Sex’]]

4.使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage1=midage.reset_index(drop=True)
midage1.to_csv(‘midage1.csv’)
midage.loc[[100,105,108],[‘Pclass’,‘Name’,‘Sex’]]

5.使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来
不能用表头进行索引
只用第几列
然后是从0开始数
midage.loc[[100,105,108],[3,4,5]]

1.6探索性数据分析

教材《Python for Data Analysis》第五章

1.利用Pandas对示例数据进行排序，要求升序

sample = pd.DataFrame(np.random.randn(3,3),index=list(‘213’),columns=list(‘bca’))

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

2.将你构建的DataFrame中的数据根据某一列，升序排列

sort_values
在这里插入图片描述
看参数
对象
行列排序
默认升序
sample.sort_values(‘b’)
现在是按b列排序了