机器学习导论--1.机器学习理论基础详解

在这里插入图片描述

一.大数据时代究竟改变了什么

  1. 数据的重要性
    数据资源转变为数据资产
  2. 方法论
    基于知识的理论完美主义转变为基于数据的历史经验主义
  3. 数据分析
    统计学(抽样)转变为数据科学(大数据)
    数据科学家出现,拥有(大数据+算法+更加丰富的业务知识)
  4. 计算智能
    基于复杂算法的数据分析转变为简单算法(MapReduce)
  5. 决策
    基于目标决策(先制定目标)转变为基于数据决策
  6. 业务方面
    基于业务的数据化;有一大堆业务,可以利用业务产生数据再去分析数据-------转变为基于数据的业务化:先有数据,再分析数据,再决策业务,
  7. 产业竞合
    以战略为中心转变为以数据为中心

二.大数据的4V特征

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
**价值高:**有价值的数据多了,大数据架构能解决价值密度低的问题吗?

**价值密度低,**如何从低价值密度的全量数据中挖掘出有价值的数据,这就是机器学习算法能解决的问题。
即如何利用数据来盈利?需要通过大数据平台存储和处理后的数据,利用算法来构建模型,从而对现实事件做出欲测。
大数据和机器学习的区别:大数据作基础的数据存储和数据统计计算,而机器学习要通过大数据已经存储好处理好的数据中挖掘大量存在价值的数据。

三.大数据架构

1.要明确的

  1. 以大数据项目架构为例分析大数据和机器学习在整个项目架构中的层次,
    如何描述大数据的项目/对数据项目有一些更深刻的理解。
  2. 作数据类项目/大数据项目要明确几个点:
  • 数据是如何流向的:从基础的数据获取–数据的存储–数据分析–数据的可视化

2.项目描述–以电信日志分析为例

以书写简历的方式来展开项目描述

1. 项目名称:电信日志分析系统
2. 项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户上网产生的访问日志和触犯安全条例的安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词的过滤、违规违法用户的处理,整个项目数据量是在1T--20T左右(小城市1T,大城市/省份20T),集群数量在10台到100台
要点是;要干什么,数据来源,通过大数据平台做了什么事情,最后达到什么功能,数据量有多大,集群数量多大。
3. 项目架构分析
    * 数据采集层:ftp,socket方式
    * 数据存储层:HDFS
    * 数据分析层:MR\HIVE\IMPALA\SPARK
    * 机器学习层:在大数据处理后的应用
    * 数据展示层:oracle+SSM 
4. 项目职责:大家在项目中负责干啥
    * 重点负责:实时or离线
    * 处理分析了哪些字段,通过何种手段进行分析
    * 项目有无优化
5. 项目优化:
    * HDFS+Spark(一站式的分析平台)

3.大数据架构–以电信日志分析为例

在这里插入图片描述
对于数据来讲,首先了解数据是如何传到系统中的,如何跟业务系统对接?
在这里插入图片描述
在这里插入图片描述

4.大数据架构–医疗

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四.人工智能

在这里插入图片描述

1.人工智能的发展和应用场景

  1. 人工智能的三次浪潮
    在这里插入图片描述
    符号:类似于神经网络中过的神经元
    专家系统: 先让人去学习东西,把学到的东西理论化,把理论模型化,把模型程序化,程序化后输出结果
  2. 人工智能应用场景:
    在这里插入图片描述

2.人工智能、机器学习、深度学习的关系

在这里插入图片描述
机器学习、数据挖掘、模式识别都是人工智能的分支。
深度学习用来解决机器学习领域中(比如人脸识别)处理不好的场景,可以把深度学习理解为机器学习中的一种方法。
在这里插入图片描述

3.数据、数据分析、信息、数据挖掘

在这里插入图片描述
从数据到信息的过程是数据分析

从信息到有价值的信息的过程是数据挖掘

**数据挖掘和机器学习的区别:**机器学习可以给数据挖掘提供算法模型上的优势

模式识别:图像识别,模式识别也是一件事情,是利用机器学习方法来作的。

机器学习:方法,解决数据挖掘中存在的问题

深度学习方法

数据–数据分析–信息–数据挖掘–有价值信息

4.多技术交叉

在这里插入图片描述

五.机器学习概念

1.什么是机器学习

在这里插入图片描述
什么是机器学习
在这里插入图片描述
在这里插入图片描述
什么不是机器学习

如何判断问题是否为机器学习问题
在这里插入图片描述

2.基于规则的学习

在这里插入图片描述
规则:制定依赖于专家自己发现的规律。规则属于硬编码(条件判断),
所以不属于机器学习的范畴

3.基于模型的学习

区别于硬编码
在这里插入图片描述

4.举例说明:房价预测问题

在这里插入图片描述

5.基于规则的学习和基于模型的学习区别

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值