目录
一、引言
数据分析的概念
数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法,对Excel据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析从中提取有价值的信息并形成结论进行展示的过程
广义的数据分析包括狭义数据分析和数据挖掘。
狭义的数据分析通过数据的统计分析发现数据中的信息,分析数据结果背后的原因
数据挖掘则是通过数学算法和模型挖掘数据潜在规律,还可以预测数据的未来的走向。
二、.导入外部数据
读取excel文件数据
- excel文件是微软办公软件excel使用的文件格式,用于存储的结构化数据。
- Python中读取excel文件的方法: 调用pandas库的read excel函数
data = pd.read_excel(r'D:\工作\2.教学\任课材料\Python数据分析与应用\新课件\data'+r'\meal_order_detail.xlsx') #文件路径和名称构成的字符串
![](https://img-blog.csdnimg.cn/direct/6f760c4c96614eb09dd7dbd8df9f3f8a.png)
读取文本数据(以csv文件为例)
- CSV文件是一种逗号分隔的文本文件,可以用excel和记事本打开
- Python中读取CSV格式文件的方法: 调用pandas库的read_csv函数
data = pd.read_csv(r'D:\工作\2. 教学\任课材料\Python数据分析与应用\新课件\data'
+r'meal_order_info.csv', # 文件路径和名称构成的宁符串
sep=',', #用于分隔数据的宇符
encoding='gbk') #编码格式
读取数据库数据
- Pandas库中提供连接Mysql等数据库的方法,可以在python读取数据库中的结构化数据
- Pandas库中读取MySQL等数据库的方法中可以传入sql语句字符串作为参数,实现sq语句的运行
import pandas as pd
from sqlalchemy import create_engine
# 初始化数据库连接,使用pymysql模块
# MySQL的用户: root,密码:147369,端口: 3306,数据库: test
engine = create_engine('mysql+pymysgl://root:123456@localhost:3306/test')
# 查询语句,选出employee表中的所有数据
sgl = ''' select * from employee;'''
# read_sgl_query的两个参数: sql语句,数据库连接
df = pd.read_sgl_query(sgl, engine)
# 输出emplovee表的查询结果
print(df)
三、Series序列对象
概念
- 上节中利用pandas库从外部读取数据到python中形成的表格叫做DataFrame表格对象
- Series序列对象即DataFrame表格对象中的某一列数据
- Series序列对象简称序列对象,其数据类型是Series
获取序列对象的方法
- 从表格对象中提取序列对象:表格对象['列名称']
- 手动生成一个序列对象:pd.Series(列表对象)类生成
Series序列对象的属性
Series序列对象中局部数据的访问方法
- 通过序列单个索引访问:序列对象[索引]
- 通过序列索引的切片访问:序列对象[索引1:索引2]
- 通过判断条件访问:序列对象[序列对象 逻辑判断符号 阈值]
series = pd.Series(['a','b','c'])
print(series)
print('-'*20)
print(series[0])
print('-'*20)
print(series[0:2])
print('-'*20)
print(series[series!='a'])
Series序列对象的运算
序列对象和数字或者另一个序列之间可以进行基本的运算
Series序列对象常用方法
1.astype()
转换序列对象中元素的数据类型
2.value_counts() 3.sort_values()
用于统计序列中每个元素值出现了多少次 对序列中的数据进行排序
注意:返回值也是一个序列对象 注意:返回的新序列对象对象中索引排序打乱序列中的元素
4.rank() 5. round()
返回序列中数据大小的排名 控制数字型序列的小数点位
注意:返回的是一个序列对象,
索引和原序列相同
6.序列对象.str.方法名()
一系列用于批量处理字符串序列对象中元素的方法 注意:返回序列对象
7.agg()
对序列对象的元素进行加工的方法 注意:返回序列对象
语法:
- 序列对象.agg(lambda x:关于x的返回值)
- 序列对象.agg(定义好的加工函数)
8.max()/min()/mean()/median()/count()/var()/...
计算数字型序列对象中所有元素的统计量
四、DataFrame表格对象
概念
- 导入数据库表格或者excel数据时形成的数据对象就是表格对象
- 表格对象的类型:DataFrame
表格对象的组成部分
表格对象的主要组成部分有3个:1.数据(values) 2.索引(index) 3.列名称(columns)
创建表格对象的方法
- 可以通过pandas库中的DataFrame类来创建一个表格对象
- 通过DataFrame0类的参数columns来设置表格对象的列名称
表格对象的属性
表格对象的基本方法
- head(): 返回前5行数据,用于概览
- info():查看表格对象行列数、各列的数据类型和非空值数量
- describe():对表格对象中的数字型序列进行各类统计量的计算
- rename():修改表格对象的列名称
- to_excel(): 将表格对象导出成excel
五、尾言
以上是小编对python数据分析依赖的两个对象的一些总结,希望对python数据分析与可视化的初学者有所帮助,有什么不足的地方,欢迎评论区留言哦,小编会虚心请教、弥补不足的,希望大家多多包容,最后祝大家学有所成,天天开心!