https://www.toutiao.com/a6646374880138756615/
2019-01-15 05:31:00
关于机器学习我们到底能做什么?怎么做?有哪些方法和技术?下面的一些解释可能对你有用。
无论是网络中,技术社区中,或者在职场中,你可能越来越多的听到机器学习这个名词,它是人工智能的一个子集或者说一个分支。
机器学习包含很多方法和技术在里面,每一个都有潜在的应用场景。如果是个人或者企业想做这方面的研究和产品,最好研究一下要做的东西适合怎样的场景,以决定选择用哪些方法和技术来做。
机器学习方法
监督学习
如果你确切知道你想要机器学习什么东西,那么监督学习是理想的选择。你可以用庞大的训练数据给到这种算法,检查输出结果,不断的调整参数直到你得到期望的结果。接下来,为了检测机器的学习成果,你可以让它执行一组从来未执行的过的验证数据,查看预测结果。
大部分监督学习任务包含分类、预测和回归。
我一个朋友的公司,他们做的产品就用到了这方面的知识。该公司为银行提供服务,根据个人或企业以往的消费和信贷数据,来预测未来可以发生违约率的情况,以此来筛选优质客户,来提升银行的效益。
无监督学习
无监督学习是让机器探索一个数据集并识别连接不同变量的隐藏模式。这种方法可以根据单独统计数据的属性,来分组数据到聚类当中。
无监督学习的一个很好的应用是用于执行概率记录链接的聚类算法,这种技术提取数据元素之间的连接,并以此为基础识别物理或虚拟世界中的个人和组织及其相关连接。
这对一些企业非常有用,尤其是一些需要整合分散在每个业务单元的数据,来创建一个持续的综合的客户视图。
无监督学习可以用在情绪分析,基于社交媒体文章、邮件或者反馈评论,可以识别个人的情绪状态。这项价值在金融服务领域增长较快,无监督学习可以追踪统计客户满意度。
半监督学习
顾名思义,半监督学习是监督学习和无监督学习的混合模式。通过标记部分样本数据,训练师可以给机器一些线索,让它知道对接下来的数据集应该如何分类。
半监督学习可以应用在探测识别欺诈及相关的其它应用。幸运的是,欺诈并不是一个高频发生的事情,大部分活动都是正常的。像欺诈性行为在普遍合乎规则的行为中就像是一个异类。所以,欺诈的存在性和半监督学习异常探测机器学习方法可以用在构建这样的模型解决方案以解决此类问题。这种类型的学习可以应用在识别网络交易中的欺诈行为。
半监督学习还可以用于混合有标记和无标记数据的情况,这种情况在大型企业环境中很常见。比如亚马逊有一款产品Alexa(一家专门发布网站世界排名的网站)。亚马逊通过对混合了标记和非标记数据的人工智能算法进行训练,提高了对其Alexa产品的自然语言理解能力,从而帮助提高Alexa响应的精确度。
强化学习
强化学习中,你让机器和它所在的环境进行交互,比如把损坏的产品从传送带上推到垃圾箱里。如果机器做了你想要的事情,对其进行奖励。通过自动计算奖励,你可以让机器在自己的时间里学习。
强化学习的一个应用的案例就是衣服的分类,或者其它零售项目的分类。
一些服务零售商们已经在引领这些新技术了,像自动机器人自动分捡衣服、鞋子及其它配饰。
当这些机器人抓东西的时候,用强化学习来感知该用多大的压力,怎么抓才能准确在仓库抓到想要的项目。
强化学习的一个变种是深度强化学习,它在自动做决策时非常适合,而这时可能监督和非监督技术都不能单独胜任的时候。
深度学习
深度学习执行像无监督学习或强化学习这样的类型。广义上来说,深度学习模仿人类学习的一些方面,主要运用神经网络来识别数据集的特点,而且非常注重细节。
深度学习以深度神经网络(DNN)的形式被用来加速药物发现的高含量筛选。它涉及到应用DNN加速技术在更短的时间内处理多个图像,同时从模型最终学习的图像特征中提取更深刻的见解。
这种机器学习方法也被很多公司用来抵抗欺诈,用自动异常探测机制来改善提高探测的机率。
深度学习也被应用在汽车工业。一个公司已经研究出基于神经网络的系统,它可以预先探测出车的问题。该系统可以感知噪音和振动,并以此来解析失败的任何细微的自然规范偏差。它可以成为预测养护的一部分,因为它可以探测出车辆任何运转的振动,然后会注意细微的性能变化。
机器学习技术
神经网络
神经网络被设计成模仿人脑中神经元的结构,每个人工神经元连接到系统内的其他神经元。神经网络分层排列,一层神经元将数据传递给下一层中的多个神经元,依此类推。最终,它们到达输出层,在那里网络呈现最佳猜测来解决问题,识别对象等等。
神经网络的使用案例涉及多个行业:
- 在生命科学和医疗保健领域,它们可用于分析医学图像,加速诊断过程和药物发现。
- 在电信和媒体中,神经网络可用于语言翻译,欺诈检测和虚拟助理服务。
- 在金融服务中,它们可用于欺诈检测,投资组合管理和风险分析。
- 在零售业中,它们可用于消除结账排队和个性化客户体验。
决策树
决策树算法旨在通过识别有关其属性的问题来对项目进行分类,这些问题将有助于确定放置它们的类别。树中的每个节点都是一个问题,分支导致更多关于项目的问题,叶子是最终的分类。
用到决策树的案例包括构建用于客户服务的知识管理平台、定价预测和产品规划。
当保险公司需要了解基于潜在的风险需要什么样的保险产品和保费调整时,它可能会使用决策树。
随机森林
虽然必须训练单个决策树以提供准确的结果,但随机森林算法采用随机创建的决策树集合,这些决策树将决策建立在不同的属性集上,并让他们对最受欢迎的类进行投票。
随机森林是寻找数据集关系的多功能工具,可以快速训练。例如,未经请求的批量电子邮件长期以来一直是个问题,不仅对用户而且对于必须管理增加的服务器负载的互联网服务提供商而言。作为对这一问题的回应,已经开发出了从普通电子邮件过滤垃圾邮件的自动化方法,使用随机森林快速准确地识别不需要的电子邮件。
随机森林的其他用途包括通过分析患者的医疗记录来识别疾病,检测银行业务中的欺诈,预测呼叫中心的呼叫量以及通过购买特定股票预测利润或损失。
聚类
聚类算法使用诸如K均值,均值平移或期望最大化之类的技术来基于共享或类似特征对数据点进行分组。这是一种无监督学习技术,可应用于分类问题。
当需要细分或分类时,聚类技术特别有用。例如,通过不同的特征对客户进行细分,以更好地分配营销活动,向某些读者推荐新闻文章,以及有效的警察执法。
聚类对于发现复杂数据集中的分组也是有效的,这些分组对于人眼来说可能并不明显。应用案例包括将数据库中的类似文件分类,以及从犯罪报告中识别犯罪热点。
关联规则学习
关联规则学习是在推荐引擎中使用的无监督技术,其寻找变量之间的关系。
这是许多电子商务网站上“购买A商品也购买了B商品的人”建议背后的技术,以及如何使用这些建议的例子很常见。
一个特定的案例可能是一家想要推动额外销售的特色食品零售商。它将使用这种技术来检查客户购买行为,为庆祝活动,运动队等产品提供特殊的罐头和捆绑。关联规则技术提供了可以在客户购买首选产品组合时发现的内容。
使用过去购买和时间框架的信息,公司可以积极创建奖励计划,并提供特殊的定制服务以推动未来的销售。