目录
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);
用于数据挖掘和数据分析,同时也提供数据清洗功能。
二、使用步骤
1. pandas数据结构
1.1 Series
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
仅由一组数据也可产生简单的Series对象。
1.2 DataFrame
DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),
DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
2. 使用方法
2.1 创建对象
创建一个Series对象:
import numpy as np
import pandas as pd
s = pd.Series([1,3,6.2,5])
print(s)
0 1.0 1 3.0 2 6.2 3 5.0 dtype: float64
pandas默认自动生成索引值,我们也可以指定索引
s = pd.Series([1,3,6.2,5], index=['0','3','5','6'])
print(s)
0 1.0 3 3.0 5 6.2 6 5.0 dtype: float64
创建一个DataFrame对象
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(df)
A B C D 0 1.076220 0.896091 0.124460 0.227721 1 0.007916 0.200983 -0.590342 -0.000473 2 -0.229281 -0.316015 -0.348253 -0.178962 3 0.441122 -1.683549 0.354141 -0.972107 4 0.440712 1.962820 -0.634699 -0.078040 5 0.782211 0.244547 -0.491865 -2.656968
2.2 查看数据
使用head函数模型可查看前5条数据
df.head()
A B C D 0 1.076220 0.896091 0.124460 0.227721 1 0.007916 0.200983 -0.590342 -0.000473 2 -0.229281 -0.316015 -0.348253 -0.178962 3 0.441122 -1.683549 0.354141 -0.972107 4 0.440712 1.962820 -0.634699 -0.078040
describe可以快速查看数据的统计摘要:
df.describe()
A B C count 6.000000 6.000000 6.000000 6.000000 mean 0.419817 0.217480 -0.264426 -0.609805 std 0.480432 1.217067 0.408885 1.082892 min -0.229281 -1.683549 -0.634699 -2.656968 25% 0.116115 -0.186766 -0.565723 -0.773821 50% 0.440917 0.222765 -0.420059 -0.128501 75% 0.696939 0.733205 0.006282 -0.019865 max 1.076220 1.962820 0.354141 0.227721
可以得到每一列的均值、平均值、最大值、最小值、方差等信息。
我们还可以查看DataFrame对象的尺寸
df.shape
(6, 4)
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。