目录
一、引言
数据分析的概念
数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法,对Excel据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析从中提取有价值的信息并形成结论进行展示的过程
广义的数据分析包括狭义数据分析和数据挖掘。
狭义的数据分析通过数据的统计分析发现数据中的信息,分析数据结果背后的原因
数据挖掘则是通过数学算法和模型挖掘数据潜在规律,还可以预测数据的未来的走向。
二、.导入外部数据
读取excel文件数据
- excel文件是微软办公软件excel使用的文件格式,用于存储的结构化数据。
- Python中读取excel文件的方法: 调用pandas库的read excel函数
data = pd.read_excel(r'D:\工作\2.教学\任课材料\Python数据分析与应用\新课件\data'+r'\meal_order_detail.xlsx') #文件路径和名称构成的字符串

读取文本数据(以csv文件为例)
- CSV文件是一种逗号分隔的文本文件,可以用excel和记事本打开
- Python中读取CSV格式文件的方法: 调用pandas库的read_csv函数
data = pd.read_csv(r'D:\工作\2. 教学\任课材料\Python数据分析与应用\新课件\data'
+r'meal_order_info.csv', # 文件路径和名称构成的宁符串
sep=',', #用于分隔数据的宇符
encoding='gbk') #编码格式
读取数据库数据
- Pandas库中提供连接Mysql等数据库的方法,可以在python读取数据库中的结构化数据
- Pandas库中读取MySQL等数据库的方法中可以传入sql语句字符串作为参数,实现sq语句的运行
import pandas as pd
from sqlalchemy import create_engine
# 初始化数据库连接,使用pymysql模块
# MySQL的用户: root,密码:147369,端口: 3306,数据库: test
engine = create_engine('mysql+pymysgl://root:123456@localhost:3306/test')
# 查询语句,选出employee表中的所有数据
sgl = ''' select * from employee;'''
# read_sgl_query的两个参数: sql语句,数据库连接
df = pd.read_sgl_query(sgl, engine)
# 输出emplovee表的查询结果
print(df)