数据分析实战(1)数据分析概述

本文介绍了数据分析的三个关键步骤:数据采集、数据挖掘和数据可视化,并强调了数据挖掘的重要性。学习数据分析需要注重实践与理论的结合,提升学习吸收能力和熟练度。数据挖掘流程包括商业理解、数据理解、数据准备、模型建立、模型评估和上线发布。文章还提及了数据挖掘的十大经典算法,如C4.5、朴素贝叶斯、SVM和K-means等。
摘要由CSDN通过智能技术生成

1. 什么是数据分析?

数据分析有三个重要的组成

  • 数据采集:可粗略的理解为爬虫等
  • 数据挖掘:算法相关,挖掘出数据中的有用信息
  • 数据可视化:全方位展示数据的形态

数据分析的过程,其实就跟认识一个人一样:你得先把他从人群中找出来,然后分析他,最后头脑中就有了了他的具体形象。

这其中,最重要的就是数据挖掘

至于这三个步骤都有哪些具体的法方法,以后再慢慢总结。

2. 如何"学习"

在这里插入图片描述

  • 如何提升自己的学习吸收能力:“知行合一”
  • 如何快速进步:熟练度

3. 核心:数据挖掘

数据挖掘的基本流程

  • 商业理解:我们的目的是更好地帮助业务
  • 数据理解:初步的探索性分析
  • 数据准备:数据清洗
  • 模型建立:应用数据挖掘模型
  • 模型评估:确认模型是否实现了预订的商业目标
  • 上线发布:将获得的数据 “知识”转化为用户可以使用的方式

数据挖掘的十大算法

在众多的数据挖掘模型中,国际权威的学术组织ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。

可以按照不同目的,将算法分为四大类:

  • 分类算法:
    • C4.5:决策树、分类、剪枝
    • 朴素贝叶斯:概率论
    • SVM:超平面
    • KNN:最近邻
    • Adaboost:集成算法
    • CART:决策树、分类和回归
  • 聚类算法:
  • K-means:聚类
  • EM:最大期望算法、最大似然估计
  • 关联分析:Apriori
    理解:直观理解关联规则之Apriori算法
  • 连接分析:
  • PageRank
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值