8.大数据架构详解:从数据获取到深度学习 --- 机器学习和数据挖掘

	机器学习是一门多领域交叉学科,涉及概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的
知识或者技能,重新组织已有的知识结构,使之不断改善自身的性能。

8.1 机器学习和数据挖掘的联系与区别 
	数据挖掘是从海量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的非平凡过程。数据挖掘中大量用到了机器学习界提供的数据分析技术和数据库界提供的数据管理技术。
不同之处,比如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,等等。某种程度来说,机器学习的科学成分更重一些,而数据
挖掘的技术成分更重一些。
	而机器学习则希望系统能够利用经验来改善自身的性能,在计算机中,"经验"通常是以数据形式存在的,因此机器学习不仅涉及对人的认知学习过程的探索,还涉及对数据的分析处理。

8.2 典型的数据挖掘和机器学习过程 
	如一个典型的推荐类应用,有如下几个部分:
		1.业务理解
			理解业务本身,其本质是什么?是分类问题还是回归问题?数据怎么获取?应用哪些模型才能解决问题?

		2.数据理解
			获取数据之后,分析数据里面有什么内容,数据是否正确,为下一步的预处理做准备。

		3.数据预处理
			原始数据会有噪声,格式化也不好,所以为了保证预测的准确性,需要进行数据的预处理。

		4.特征提取
			特征提取是机器学习最重要,最耗时的一个阶段。

		5.模型构建
			使用适当的算法,获取预期准确的值。

		6.模型评估
			根据测试集来评估模型的准确度。

		7.模型应用
			将模型部署,应用到实际生产环境中。

		8.应用效果评估
			根据最终的业务,评估最终的应用效果。

		整个过程会不断反复,模型也会不断的调整,直到达到理想的效果。

8.3 机器学习概览 
	机器学习的算法有很多,这里从2方面介绍:一个是学习方式,一个是算法类似性。

	8.3.1 学习方式 
		根据数据类型的不同,对一个问题的建模可以有不同的方式。在机器学习或者人工智能,人们首先会考虑算法的学习方式。在机器学习领域有如下几种主要的学习方式:
		1.监督式学习
		2.非监督式学习
		3.半监督学习
		4.强化学习

		在企业数据应用的场景下,人们最常用的可能就是监督学习和非监督学习。在图像识别领域等领域,由于存在大量的非标识数据和少量的可标识数据,目前半监督学习是一个热门话题,
	而强化学习更多的是应用在机器人控制及其他需要进行系统控制的领域。

	8.3.2 算法类似性 
		根据算法的功能和形式的类似性,可以对算法进行分类。
		1.回归算法
		2.基于实例的算法
		3.正则化算法
		4.决策树算法
		5.贝叶斯算法
		6.基于核的算法
		7.聚类算法
		8.关联规则学习
		9.人工神经网络算法
		10.深度学习算法
		11.降低维度算法
		12.集成算法

8.4 机器学习&数据挖掘应用案例 
	8.4.1 尿布和啤酒的故事 
	8.4.2 决策树用于电信领域故障快速定位 
	8.4.3 图像识别领域 
	8.4.4 自然语言识别 

8.5 交互式分析 
	一个优秀的数据科学家需要具备的素质包括:懂数据采集,数学算法,数学软件,数据分析,预测分析,市场应用,决策分析等。
	传统的典型应用(推荐系统)的一个数据流过程,需要经历"使用Hadoop做 etl -> 使用 Impala/Drill 等做数据探索 -> 使用 Tableau 做报表 -> 使用R语言或者Mahout做
高级分析 -> 最终形成一个数据产品"等过程。

8.6 深度学习 
	8.6.1 深度学习概述 
	8.6.2 机器学习的背景 
	8.6.3 人脑视觉机理 
	8.6.4 关于特征 
	8.6.5 需要有多少个特征 
	8.6.6 深度学习的基本思想 
	8.6.7 浅层学习和深度学习 
	8.6.8 深度学习与神经网络 
	8.6.9 深度学习的训练过程 
	8.6.10 深度学习的框架 
	8.6.11 深度学习与GPU
		深度学习需要很高的内在并行度,大量的浮点计算能力及矩阵预算,而GPU能提供这些能力。

		CPU和GPU没有本质的区别,主要区别在于cpu的目标是让用户有更短的响应时间,即在编辑文档或者浏览网页的时候,用最短的时间对鼠标,键盘操作做出响应。要达到这个目的,
	最重要的是单线程的处理能力,所以在进行芯片设计的时候,里面有大量的单元是来保证单线程处理性能。cpu有大量的资源做分级预测或者单线程寻找并行的工作,总体来说就是LU,即
	真正实现浮点运算的公共单元比例比GPU少。
		另外,GPU 计算在设计的时候要保证做图形图像渲染有很好的性能。图形图像渲染任务与其他领域的计算或者通用计算的差别不是很大。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值