机器学习,数据挖掘,数据分析区别和联系
机器学习
在上一篇章我提到什么是机器学习;
传统的机器学习技术在预测中发挥了重要的作用,经过发展形成了丰富的模型结构,例如:
1.线性回归。
2.逻辑回归。
3.决策树。
4.支持向量机。
5.贝叶斯模型。
6.正则化模型。
7.模型集成(ensemble)。
8.神经网络。
这些预测模型中的每一个都基于特定的算法结构,参数都是可调的。
机器学习训练预测模型步骤:
- 选择一个模型结构(例如逻辑回归,随机森林等)。
- 用训练数据(输入和输出)输入模型。
- 学习算法将输出最优模型(即具有使训练错误最小化的特定参数的模型)。
每种模式都有自己的特点,在一些任务中表现不错,但在其他方面表现不佳。但总的来说,我们可以把它们分成低功耗(简单)模型和高功耗(复杂)模型。选择不同的模型是一个非常棘手的问题。
机器学习是人工智能实现的一个技术,同时数据挖掘也会用到其中预测的模型,但是深入机器学习后面有深度学习和强化学习,这些就是应用到人工智能的方面了。
若是想走人工智能的方向:一般人工智是结合各个技术应用到场景中,例如人工智能+医疗,人工智能+网络规划,人工智能+交通等等,
数据挖掘
官方定义:
数据挖掘 (Data Mining) , 也叫数据开采、数据采掘等, 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的, 但又是潜在有用的信息和知识的过程,就是在大数据中找到自己感兴趣的信息。
(1)定义:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
(2)作用:数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。
(3)方法:主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
(4)结果:输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。综合起来,
摘自
作者:网易数帆
链接:https://www.zhihu.com/question/20127962/answer/432920406
来源:知乎
数据挖掘常用到的技术:
- 统计技术
对收集到的技术进行整理,分析,从而发现数据中的结构;我们可以使用统计技术更直接的挖掘数据信息,给定数据设一个概率模型,根据模型采用相应的方法进行挖掘。 - 回归分析方法
研究自变量和因变量的关系,分为线性回归和非线性回归。 - 聚类分析
根据事物的特征进行分类,从中挖掘信息,发现规律。 - 决策树分析分类技术
是一种重要的数据分类技术,有较高的分类精确度。建立决策树。 - 可视化技术
利用数据挖掘得出的结论 方便非专业人士看懂。
数据挖掘的应用:
只要产业有分析价值和需求的数据库,皆可用数据挖掘工具进行挖掘分析,常见有零售业,制造业,财务金融保险,通讯及医疗服务。
(1)商场从顾客购买商品中发现一定的关联规则,提供打折、购物券等促销手段,提高销售额;
(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;
(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;
(4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计;
摘自
作者:CDA数据分析师
链接:https://www.zhihu.com/question/20594161/answer/681772629
数据分析:
简单来说,数据分析就是为了处理原有计算方法、统计方法,着重点就是数据、算法、统计、数值,数据分析的数据量可能不大,注重数值分析方法,往往是分析过往的数据、评价某时间段内取得的效果。
数据分析更侧重与业务 但是到了高级数据分析师的话也需要用到数据挖掘建立模型,进行预测。
区分一下数据分析和数据挖掘
从岗位招聘角度来看
目前的招聘需求中,数据分析师偏向于运营和产品;数据挖掘工程师偏向于开发。我用红圈标出了一些有趣的差异词,我们可以看到,数据分析师会参与一些指标的建立并输出一些报告(比如目前的用户增长类数据分析师,通过对数据进行分析,提高用户转化率等);而数据挖掘工程师更偏重于从海量数据中利用算法建立模型进行挖掘(比如目前的推荐系统工程师) 数据分析师的技能牌中SQL,Excel,Python和R出现频次最高,尤其是SQL。数据挖掘工程师的技能牌中Python,Java,Hadoop,Spark出现频次较高,尤其是Python。从技能牌情况可看出,数据挖掘工程师对分布式开发能力要求较高。Python是数据分析和数据挖掘工程师共有的核心技能。
摘自
作者:makeHopeLive
链接:https://www.zhihu.com/question/20127962/answer/386198909
以上作者还从岗位学历和薪资提到 想了解可仔细看看。