数据挖掘与机器学习

数据挖掘

数据挖掘:也就是data mining,是一个很宽泛的概念,也是一个新兴学科,旨在如何从海量数据中挖掘出有用的信息来。

数据挖掘这个工作BI(商业智能)可以做,统计分析可以做,大数据技术可以做,市场运营也可以做,或者用excel分析数据,发现了一些有用的信息,然后这些信息可以指导你的business,这也属于数据挖掘。

机器学习

机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y 的函数(映射),来做分类、聚类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预
估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。

深度学习

在这里插入图片描述
深度学习:deep learning,机器学习里面现在比较火的一个topic,本身是神经网络算法的衍

生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。

总结:数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习也是来源于机器学习的算法模型,本质上是原来的神经网络。

人工智能

“人工智能”一词最初是在1956 年Dartmouth学会上提出的。从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展。人工智能(Artificial Intelligence), 英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实 质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。

人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。

数据挖掘体系

在这里插入图片描述

机器学习

什么是机器学习?

机器学习是是一门多领域交叉学科。涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习的算法在数据挖掘里被大量使用。

此外它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。

机器学习的应用

市场分析和管理

比如:目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割

1.比如做目标市场分析:

构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等。确定顾客的购买模式

CTR估计(广告点击率预测)比如通过逻辑回归来实现。

2.比如做交叉市场分析:

货物销售之间的相互联系和相关性,以及基于这种联系上的预测

风险分析和管理,风险预测,客户保持,保险业的改良,质量控制,竞争分析
1.比如做公司分析和风险管理: 财务计划——现金流转分析和预测
资源计划——总结和比较资源和花费
竞争分析——对竞争者和市场趋势的监控对顾客按等级分组和基于等级的定价过程对定价策略应用于竞争更激烈的市场中

保险公司对于保险费率的厘定

欺骗检测和异常模式的监测(孤立点)

欺诈行为检测和异常模式
1.比如对欺骗行为进行聚类和建模,并进行孤立点分析
2.汽车保险:相撞事件的分析
3.洗钱:发现可疑的货币交易行为

4.医疗保险:职业病人,医生或以及相关数据分析
5.电信:电话呼叫欺骗行为,根据呼叫目的地,持续事件,日或周呼叫次数,分析该模型发现与期待标准的偏差
6.零售产业:比如根据分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的
7.反恐

文本挖掘

1.新闻组
2.电子邮件(垃圾邮件的过滤)可以通过贝叶斯来实现
3.文档归类
4.评论自动分析
5.垃圾信息过滤
6.网页自动分类等

天文学

例如:JPL实验室和Palomar天文台层借助于数据挖掘工具

推荐系统

当当网的图书推荐
汽车之家的同类汽车推荐淘宝的同类商品推荐
新浪的视频推荐
百度知道的问题推荐社交推荐
职位推荐

智能博弈

棋谱学习

频繁模式挖掘

购物篮商品分析,典型案例:啤酒-尿布

模式识别

1.语音识别
2.图像识别
指纹、虹膜纹识别
脸像识别
车牌识别
动态图像识别
小波分析

机器学习算法概述

在这里插入图片描述

监督学习和无监督学习

监督学习概念介绍

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有导师训练。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。若所给的学习样本不带有类别信息,就是无监督学习。任何一种学习都有一定的目的,对于模式识别来说,就是要通过有限数量样本的学习,使分类器在对无限多个模式进行分类时所产生的错误概率最小。

常见的监督学习算法

1.线性回归
2.逻辑回归
3.朴素贝叶斯
4.KNN(最近邻算法)
5.决策树
6.支持向量机
7.某些可用于分类或预测功能的神经网络模型

无监督学习概念介绍

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮 助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。比如“鸡尾酒会问题(cocktail party problem)”就是一个无监督学习问题。
实际上,可以把无监督学习看做是聚类问题。

常见的无监督学习算法

1.系统聚类
2.K-means
3.K-中值聚类
3.K-众数法
4.某些神经网络模型,比如BP神经网络等
5.受限玻尔兹曼机

强化学习

强化学习概述

强化学习(RL)也属于机器学习的范畴,灵感来自于行为主义心理学。
强化学习的思想是:引入奖励和惩罚机制,并告知模型如何采取行动,从而最大限度地获取奖励。
强化学些已经在许多其他学科中得到了研究,如博弈论、控制论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计学和遗传算法等。
在运筹学和控制文献中,研究强化学习方法的领域称为近似动态规划。 在经济学和博弈论中,强化学习可以用来解释在有限理性下平衡是如何产生的。

案例——机器人浇注

监督学习倒水
诸如浇注这样的机器人行为,是通过观看人类的一个第三方示范演示进行学习的,并引入学习行为的奖励函数,比如浇注入目标获得奖励值,未浇注入目标扣减奖励值,以此来训练机器, 使其行为满足获得最大奖励值。

案例——AI玩超级玛丽
在这里插入图片描述
在屏幕中,你可以看到一些简单的2D场景。其中,你可以看一个小人,那就是马里奥,还能看到场景中的所有其他物体。

输出
AI有四种方式与游戏进行互动:
1)向左走
2)向右走
3)蹲下
4)跳跃
这些就是AI的输出。AI可以根据输入来决定应该选择哪个输出。

奖励
AI一开始可能并不清楚游戏中潜在的奖励,但很快就会得到第一手经验。每个输出的奖励在游戏中是不同的。如果你只是向左或向右走,那么奖励很低。如果你靠近一个硬币,则奖励稍高

一些。如果你跳进一个神秘的盒子,那么奖励会再高一些。但是,如果你被敌人击中,那么奖励是负的,不用说,负数奖励更像是一种惩罚。

AI学习如何玩超级马里奥
作为一名新手,AI从按右箭头开始游戏。这样,你就会得到马里奥向右移动的奖励。然而,随着你继续按右箭头,马里奥最终会碰到一个板栗仔,这样,AI被会被奖励死亡!
马里奥因为碰到板栗仔而奖励死亡。

不用担心,AI可以重新开始。这一次,当程序接收板栗仔向AI走来的输入时,AI可以尝试其他输出以获得不同的奖励。经过几次尝试之后,AI就会意识到,要获得最高奖励的输出就需要跳到板栗仔的头顶,或者直接跳过它。AI现在开始学习如何玩超级马里奥了哦——
当马里奥跳过板栗仔的时候,就会奖励继续活着

这个过程展示了AI程序一开始是一块干净的白板,不知道自己应该要做什么。然后,通过奖励函数(导师或监督),使AI不断地训练,从而获取更高的奖励以及避免惩罚,最后得到理想的模型。
所以,只要给予足够的时间,机器学习算法将能够训练自己以成功完成给定的任务。尽管这可能需要花费很长时间,但最重要的还是要为你的程序提供高质量的训练数据,以获得更准确的结果。

Spark MLlib介绍

概述

MLlib是一个构建在Spark上的、专门针对大数据处理的并发式高速机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。

MLlib机器学习库还在不停地更新中,Apache的相关研究人员仍在不停地为其中添加更多的机器学习算法。目前MLlib中已经有通用的学习算法和工具类,包括统计、分类、回归、聚类、降维等。

MLlib采用Scala语言编写,Scala语言是运行在JVM上的一种函数式编程语言,特点就是可移植性强,“一次编写,到处运行”是其最重要的特点。借助于RDD数据统一输入格式,让用 户可以在不同的IDE上编写数据处理程序,通过本地化测试后可以在略微修改运行参数后直接在集群上运行。对结果的获取更为可视化和直观,不会因为运行系统底层的不同而造成结果的差异与改变。

MLlib基本数据模型

概述

RDD是MLlib专用的数据格式,它参考了Scala函数式编程思想,并大胆引入统计分析概念,
将存储数据转化成向量和矩阵的形式进行存储和计算,这样将数据定量化

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值