数据分析 从0 到 1--引入

掌握数据,就是掌握规律。
当我们谈论数据分析的时候,都在讲些什么呢?

  1. 数据采集。任何分析都需要有数据,是我们的原材料。
  2. 数据挖掘。进行数据分析是为了找到其中规律,指导业务。核心是挖掘数据的商业价值。
  3. 数据可视化。让我们直观了解数据分析的结果。
    三者间关系
    数据采集:和数据源打交道,利用工具进行采集。数据采集
    数据挖掘:相当于算法部分,要先知道其基本流程,十大算法及背后数学基础。
    在这里插入图片描述

数据可视化:帮助理解数据的结构及分析结果的呈现

  1. 使用python:利用python对数据进行清洗和挖掘,并利用Matplotlib、Seaborn 等第三方库呈现。
  2. 使用第三方工具:微图、DataV、Data GIF Maker等第三方工具可以便利地对数据进行处理,并制作呈现效果。

数据可视化

学习方法:MAS方法。

  • Multi-Dimension : 掌握一个事物,要多角度认识它
  • Ask: 不懂就问
  • Sharing: 最好的学习即分享。用自己的语言再一次表述,是对知识的进一步梳理。

认知三部曲:
认知三部曲
带着问题找答案,带着概念做总结。学习数据分析的过程中应该做到:
记录下学习过程中每天的认知;
这些认知对应工具的那些操作;
多做练习来巩固认知。

学习的层次:

  • 基础概念: 学习的基础要扎实。
  • 工具: 锻炼实操能力
  • 题库: 查漏补缺,加深思考

总结:
业务洞察是分析数据的前提,分析数据是理解数据的前提,理解数据是挖掘数据的前提。


数据挖掘的基本流程

知识清单
6个步骤:

  1. 商业理解:从商业角度理解项目需求,再对数据挖掘的目标进行定义。
  2. 数据理解:对部分数据进行探索,如数据描述,数据质量验证等,有助于初步了解收集的数据。
  3. 数据准备:收集、清洗并集成数据。完成数据挖掘前的准备工作。
  4. 模型建立:选择和应用各种数据挖掘模型,优化得到更好的分类结果。
  5. 模型评估:对模型进行评价。检查建模各步骤是否完成预定商业目标。
  6. 上线发布:呈现一份报告或一个可重复的复杂数据挖掘过程。

十大算法:

  • 分类算法: C4.5 ,朴素贝叶斯(Naive Bayes), SVM, KNN, Adaboost, CART
  • 聚类算法:K-means, EM
  • 关联分析:Apriori
  • 连接分析:PageRank
  1. C4.5
    十大算法之首。属于决策树算法,再决策树构造过程中进行剪枝,并可处理连续的属性和不完整的数据。

  2. 朴素贝叶斯(Naive Bayes)
    基于概率论原理。对给出未知物体进行分类需要求解此位置物体出现的条件下,各个类别出现的概率,哪一类概率最大,就认为该未知物体属于哪个分类。

  3. SVM (Support Vector Machine)
    支持向量机。在训练中简历一个超平面的分类模型。

  4. KNN(K-Nearest Neighbor)
    K最近邻算法。K近邻,即每个样本都可以用它最接近的K个邻居来代表。若一个样本的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。

  5. Adaboost
    在训练中简历来一个联合的分类模型。boost即提升,故 Adaboost是个构建分类器的提升算法。可以让多个弱 的分类器组成一个强的分类器。

  6. CART(Classification and Regression Trees)
    构建两棵树,一棵分类树,一棵回归树。是一个决策树学习方法。

  7. K-means
    是一个聚类算法。若最终把物体归为K类,每个类中有一个“中心点”,是该类核心。若有一待归类新点,则计算新点与K个中心点的距离,距离哪个中心点近,则该点归为哪一类。

  8. EM
    最大期望算法。求参数最大似然估计的一种方法。原理:假设想要评估参数A和参数B,初始状态二者未知,但已知A可得B, 反之亦然。 那么可考虑先赋予A某个初值,则可得B的估值,再由B的估值出发,重新估计A值。持续这个过程直到收敛。

  9. Apriori
    是一种挖掘关联规则(Association rules)算法。通过挖掘频繁项集(frequent item sets)来揭示物品之间的关联关系。频繁项集是指经常出现在一起的物品集合,关联规则暗示两种物品之间可能存在很强的关系。

  10. PageRank

    起源于论文影响力的计算方式, 一篇论文被引入次数越多,则该论文影响力越强。 PageRank 被引入网页权重计算中:当一个页面链出现的页面越多,则该页面“参考文献越多”, 当该页面被链入的频率越高,则这个页面被引用次数越高。则可据此得到网站的权重划分。


网上用幕布做的思维导图:
https://mubu.com/doc/85OdlVv3W0

作图工具:
SketchBook

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值