什么是数据分析与数据挖掘
数据分析:对已知数据进行分析,然后提取一些有价值的信息;(比如:统计出平均数;标准差等信息)
数据挖掘:对大量的数据进行分析挖掘,得到一些未知的,有价值的信息等。(比如从网站的用户或用户行为数据中挖掘出用户其潜在需求信息,从而对网站进行改善)—已知到未知
关系:
数据分析和数据挖掘密不可分,数据挖掘是数据分析的提升。
能做什么:
发现有联系事物之间的规律;数据规律的探索;发现窃电用户;发掘用户潜在需求;实现信息的数据化推送;疾病与药物之间的关系·······等等
数据挖掘的过程:
1,定义目标;(分析什么数据,解决什么问题)
2,获取数据;(爬虫采集;下载一些统计网站发布的数据;自有数据)
3,数据探索;(初步研究,发现特征)
4,数据预处理;(数据清洗【去掉脏数据】;数据集成【集中化】;数据变换【规范化】;数据规约【精简】)
5,挖掘建模:(分类;聚类;关联;预测)【算法很重要】
6,模型评价与发布:
相关模块的简介:
1,numpy可以高效的处理数据,提供数组支持,很多模块都依赖它,如:pandas,scipy,matplotlib。这个模块是基础。
2,pandas:主要用于数据探索和数据分析
3,matplotlib:作图模块,解决可视化问题
4,scipy:数值计算,同时支持矩阵运算,并提供高等数据处理功能(积分,傅里叶变换,微分方程求解等)
5,statsmodels:主要是统计分析
6,Gensim:主要用于文本挖掘
7,sklearn,keras:前者机器学习,后者深度学习。
注意:
numpy:{
数组运算效率比列表高
数组[起始下标:最终下标+1]
}
panda:
series:一串数据,一行一列;
DataFrame:数据框,多行多列
import pandas as pda
a=pda.Series([8,9,2,1],index=['one','two','three','four'])
b=pda.DataFrame([[3,4,3,4],[3,4,56,7],[3,3,4,5]],columns=['one','two','three','four'])
c=pda.DataFrame({
'one':4,
'two':[6,2,3],
'three':list(str(982))
})
b.head() #头部数据,默认前5行
b.tail() #尾部数据,默认后5行
b.describe()#统计数据(按列统计)
b.T #转置
}
数据导入:
**导入csv数据:
import pandas as pda
i=pda.read_csv("C:/fhiaw/jgi/ijfgk.csv")
i.describe()
i.sort_values(by="21") #按照21列排序
导入excel数据:
j=pda.read_excel("F:/fjhzkjf.xls")
导入MySQL数据库里数据:
import pymysql
conn=pymyql.connect(host="127.0.0.1",user="root",passwd="root",db="hexun")
sql="select * from myhexun"
k=pda.read_sql(sql,conn)
d.describe()
导入html数据:
使用pandas,可以直接从html网页中加载对应table表格中的数据,但是在使用read_html()之前,需要先安装html5lib模块与beautifulsoup4模块。
l=pda.read_html("C:/jfkajfajf.html")
m=pda.read_html("https://book.douban.com/")
导入文本数据:**
n=pda.read_table("C:/afhjah.txt")