掌握数据,就是掌握规律。
当我们谈论数据分析的时候,都在讲些什么呢?
- 数据采集。任何分析都需要有数据,是我们的原材料。
- 数据挖掘。进行数据分析是为了找到其中规律,指导业务。核心是挖掘数据的商业价值。
- 数据可视化。让我们直观了解数据分析的结果。
数据采集:和数据源打交道,利用工具进行采集。
数据挖掘:相当于算法部分,要先知道其基本流程,十大算法及背后数学基础。
数据可视化:帮助理解数据的结构及分析结果的呈现
- 使用python:利用python对数据进行清洗和挖掘,并利用Matplotlib、Seaborn 等第三方库呈现。
- 使用第三方工具:微图、DataV、Data GIF Maker等第三方工具可以便利地对数据进行处理,并制作呈现效果。
另
学习方法:MAS方法。
- Multi-Dimension : 掌握一个事物,要多角度认识它
- Ask: 不懂就问
- Sharing: 最好的学习即分享。用自己的语言再一次表述,是对知识的进一步梳理。
认知三部曲:
带着问题找答案,带着概念做总结。学习数据分析的过程中应该做到:
记录下学习过程中每天的认知;
这些认知对应工具的那些操作;
多做练习来巩固认知。
学习的层次:
- 基础概念: 学习的基础要扎实。
- 工具: 锻炼实操能力
- 题库: 查漏补缺,加深思考
总结:
业务洞察是分析数据的前提,分析数据是理解数据的前提,理解数据是挖掘数据的前提。
数据挖掘的基本流程
6个步骤:
- 商业理解:从商业角度理解项目需求,再对数据挖掘的目标进行定义。
- 数据理解:对部分数据进行探索,如数据描述,数据质量验证等,有助于初步了解收集的数据。
- 数据准备:收集、清洗并集成数据。完成数据挖掘前的准备工作。
- 模型建立:选择和应用各种数据挖掘模型,优化得到更好的分类结果。
- 模型评估:对模型进行评价。检查建模各步骤是否完成预定商业目标。
- 上线发布:呈现一份报告或一个可重复的复杂数据挖掘过程。
十大算法:
- 分类算法: C4.5 ,朴素贝叶斯(Naive Bayes), SVM, KNN, Adaboost, CART
- 聚类算法:K-means, EM
- 关联分析:Apriori
- 连接分析:PageRank
-
C4.5
十大算法之首。属于决策树算法,再决策树构造过程中进行剪枝,并可处理连续的属性和不完整的数据。 -
朴素贝叶斯(Naive Bayes)
基于概率论原理。对给出未知物体进行分类需要求解此位置物体出现的条件下,各个类别出现的概率,哪一类概率最大,就认为该未知物体属于哪个分类。 -
SVM (Support Vector Machine)
支持向量机。在训练中简历一个超平面的分类模型。 -
KNN(K-Nearest Neighbor)
K最近邻算法。K近邻,即每个样本都可以用它最接近的K个邻居来代表。若一个样本的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。 -
Adaboost
在训练中简历来一个联合的分类模型。boost即提升,故 Adaboost是个构建分类器的提升算法。可以让多个弱 的分类器组成一个强的分类器。 -
CART(Classification and Regression Trees)
构建两棵树,一棵分类树,一棵回归树。是一个决策树学习方法。 -
K-means
是一个聚类算法。若最终把物体归为K类,每个类中有一个“中心点”,是该类核心。若有一待归类新点,则计算新点与K个中心点的距离,距离哪个中心点近,则该点归为哪一类。 -
EM
最大期望算法。求参数最大似然估计的一种方法。原理:假设想要评估参数A和参数B,初始状态二者未知,但已知A可得B, 反之亦然。 那么可考虑先赋予A某个初值,则可得B的估值,再由B的估值出发,重新估计A值。持续这个过程直到收敛。 -
Apriori
是一种挖掘关联规则(Association rules)算法。通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系。频繁项集是指经常出现在一起的物品集合,关联规则暗示两种物品之间可能存在很强的关系。 -
PageRank
起源于论文影响力的计算方式, 一篇论文被引入次数越多,则该论文影响力越强。 PageRank 被引入网页权重计算中:当一个页面链出现的页面越多,则该页面“参考文献越多”, 当该页面被链入的频率越高,则这个页面被引用次数越高。则可据此得到网站的权重划分。
网上用幕布做的思维导图:
https://mubu.com/doc/85OdlVv3W0
作图工具:
SketchBook