提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
提示:这里可以添加本文要记录的大概内容:
载入数据和理解数据
提示:以下是本篇文章正文内容,下面案例可供参考
一、学习目的?
1.明确数据获取和数据理解的工作过程
2.掌握数据加载和读取(从平面文件、数据库……)的方法
3.通过观察数据的概览、数据可视化等工具,对数据进行理解
二、数据的导入
1.常见的csv,txt,excel以及数据库mysql中的文件读取
代码如下(示例):
import pandas as pd
data = pd.read_csv(r'../filename.csv') #读取csv文件
data = pd.read_table(r'../filename.txt') #读取txt文件
data = pd.read_excel(r'../filename.xlsx') #读取excel文件
'''
# 获取数据库中的数据
```c
import pymysql
conn = pymysql.connect(host='localhost',user='root',passwd='12345',db='mydb') #连接数据库,注意修改成要连的数据库信息
cur = conn.cursor() #创建游标
cur.execute("select * from train_data limit 100") #train_data是要读取的数据名
data = cur.fetchall() #获取数据
cols = cur.description #获取列名
conn.commit() #执行
cur.close() #关闭游标
conn.close() #关闭数据库连接
col = []
for i in cols:
col.append(i[0])
data = list(map(list,data))
data = pd.DataFrame(data,columns=col)
2.数据查看
代码如下(示例):在进行数据分析前呢,可以查看一下数据的总体情况,从宏观上了解数据
data.head() #显示前五行数据
data.tail() #显示末尾五行数据
data.info() #查看各字段的信息
data.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数
data.describe() #查看数据的大体情况,均值,最值,分位数值...
data.columns.tolist() #得到列名的list
本文介绍了数据加载的基本过程,包括使用pandas库读取CSV、TXT和Excel文件,以及从MySQL数据库中获取数据。此外,还展示了如何通过数据查看函数如head(),tail(),info()和describe()来理解数据集的结构和统计特性。

被折叠的 条评论
为什么被折叠?



