pandas，seaborn与matplotlib学习

最新推荐文章于 2024-04-27 21:41:59 发布

田田天天甜甜

最新推荐文章于 2024-04-27 21:41:59 发布

阅读量1.9k

点赞数 2

分类专栏： kaggle学习

本文链接：https://blog.csdn.net/qq_39751437/article/details/86591345

版权

文章目录

一、pandas
- pandas数据结构
二、seaborn
三、matplotlib

在机器学习中，一般使用pandas进行数据的处理，使用matplotlib或者seaborn
进行数据可视化，两者结合起来处理和分析数据，能让之后的步骤事半功倍。

一、pandas

代码保存在ipynb文件，点击查看

pandas数据结构

Series
一种类似于一维数组的对象，由**一组数据（各种numpy数据类型）以及一组与之相关的数据标签（即索引）**组成。在创建时可以显式说明各个数据点的索引，如果没有说明，则默认自动创建0到N-1（N为数据的长度）的整数型索引，并且可以通过索引的方式选取Series中的单个或一组值。也可以通过字典赋值创建。Series在算术运算中会自动对齐不同索引的数据

创建方式
（1）Series：通过一维数组创建
（2）Series：通过字典的方式创建

Series类型包括index和values两部分，相当于DataFrame的任意一列加索引构成，下面是一些基本操作

import pandas as pd 
from pandas import Series,DataFrame

data1=Series(['A','B','C','D'])

print (data1)
print (data1.index)#获得索引
print (data1.values)#获得值
print(data1[1])#查找某一个索引值
# print(data1[A])#查找某一个索引值
print (data1[:3]) #自动切片

DataFrame

可以从任何数据格式创建dataframe，这是一个表格型的数据结构。构建DataFrame最常用的一种是直接传入一个由等长列表或numpy数组组成的字典。可通过columns指定列顺序，如果指定的列名称不存在，则默认为NaN值。

pandas.DataFrame( data, index, columns, dtype, copy)

在这里插入图片描述
总结主要用法

# -*- coding: utf-8 -*-
"""pandas.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1L7F8tse-VTKAbP8eY4Ui9rR0U_myV53y
"""

import urllib.request
import urllib
url = "https://raw.githubusercontent.com/GokuMohandas/practicalAI/master/data/titanic.csv"
response = urllib.request.urlopen(url)
html = response.read()
with open('titanic.csv', 'wb') as f:
    f.write(html)

import pandas as pd

df=pd.read_csv('C:\\Users\\Administrator\\Desktop\\titanic.csv')

print (df.head(5)#前五项

,df.describe()

,df.info()

,df['