典型的机器学习应用领域有哪些?

机器学习应用的典型领域有网络安全、搜索引擎、产品推荐、自动驾驶、图像识别、语音识别、量化投资、自然语言处理等。

以下为7个领域的例子:

1. 艺术创作

图像处理方面的应用较多。

主要的技术就是:卷积神经网络 (CNN) 。CNN 最擅长的就是图片的处理。它受到了人类视觉神经系统的启发。

机器学习在图像处理领域应用非常广泛,除了图像识别、照片分类等,最近几年图像处理方面的创新应用已经涉及了图片生成、美化、修复和图片场景描述等(具体来说比如:人脸识别、自动驾驶、美图秀秀、安防等等)。

具体的项目比如:

Facebook

脸书(Facebook)公司开发的一款可以描述图片内容的应用。

这个应用在2021 年 11 月 2 日有个更新:就是他们公司会大幅减少面部识别技术的使用。意思就是他们会删除之前的面部识别模板。所以说,他的这个应用,还是可以识别照片中的人,但它不再包含人名(估计是涉及到了隐私问题)。

当时他们的这个应用就是想让盲人或视障用户也可以“看”到图片(或者说了解到图中的内容)。

所以,他们就使用了图像识别技术,然后用合成语音来描述图片的内容,这样就可以让盲人能够理解Facebook / Instagram里的图片是什么。

他们的这个应用在2018 年获得美国盲人基金会的海伦凯勒成就奖。

 Neural Doodle(神经涂鸦)

Neural Doodle项目就是使用了深度神经网络,让大家可以通过合成的方式绘制一幅非常厉害的画。

原理:使用卷积神经网络,提取模板图片中的绘画特征,然后对你画的涂鸦图片再进行处理,最后合成一张新的图画

下图就是这个项目的应用效果,按顺序,最上面是油画模板,中间是用户涂鸦的作品,下面是合成之后的新作品。

图像修复

神经网络还可以用于图像修复。

主要涉及的技术:对抗神经网络(GAN = Generative Adversarial Networks)和卷积神经网络进行结合。可以对图片中的缺失部分进行修复。

下图就是两个例子(都是在2016年发表的论文里的例子)。

PlaNet 神经网络模型

谷歌公司的 PlaNet (Deep Planning Network = 深度规划网络) ,是一个神经网络模型,它可以识别照片中的地理位置。

其实,照片地理定位是一项非常具有挑战性的任务。因为许多照片只提供很少的信息,可以用来推断他们的位置。例如,海滩的图像可以被带到世界各地的许多海滩。

下图的例子:

上面的3张照片是查询照片(要输入到模型里的照片)。

下面3张地图是结果输出:在地图上的大概位置(和他们的概率分布)。

首先第一组照片,你可以看到模型把埃菲尔铁塔,非常自信地分配给了巴黎。

第二组照片:你可以看到,这个模型觉得这张峡湾的照片,是在新西兰或者挪威拍摄的。

然后第三组照片,就是一张海滩的照片。模型把最高的概率分配给南加州(这个是正确的答案),但也把一些概率分配给有类似这样的海滩的地方,如墨西哥和地中海。

这个例子可以看出来,模型把地图进行了网格化,使图片对应于某一网格单元。

他这个模型的识别的误差距离大约为1131 千米。

而且虽然训练样本数量很大,但最终的神经网络模型的大小只有377MB。

2. 金融领域

机器学习在金融领域也有非常多的应用,比如:可以用来信用评分,用来检测欺诈,用来做股票市场的趋势预测,还有客户关系管理。

信用评分

信用评分是衡量人们信用的数字表示。银行业通常用它作为支持贷款申请决策的方法。

基本上,会审核你的职业、薪酬、所处行业、历史信用记录等信息确定客户的信用评分。

欺诈检测

机器学习可以检测和识别,用户购买过程中的数千种模式。 通过历史数据,可以预测出交易中的欺诈行为。

股票市场的趋势预测

预测股市是一件非常困难的事情。因为包含很多因素:比如物理或心理因素、理性或者不理性行为因素等等。所有这些因素结合在一起,就会使股价波动剧烈,很难准确预测。但是,你还是可以使用机器学习算法,分析上市公司的三大财务报表(资产负债表、现金流量表等)。你还可以分析,和企业相关的第三方资讯,如政策法规、新闻等等,让你的预测结果更准确。

具体的方法就比如:

        - 用无监督学习,可以分析股票市场的影响因素。

        - 强化学习,可以通过算法来找到最大化收益的策略。

客户关系管理

客户关系管理(CRM)是一个软件系统,专门用于管理公司和客户之间的关系。

当CRM 系统和机器学习结合起来,他们的应用就是优化营销和聊天机器人(智能对话)。

3. 医疗领域

糖尿病视网膜病变

糖尿病视网膜病变是一个非常严重的问题。 早期筛查和及时治疗可以降低视网膜病变的风险。

目前就可以通过深度学习,来检查视网膜图像,就可以确定哪些患者有致盲性眼病,这样就可以及时转诊给眼科医生。

具体的应用,就比如 Open Indirect Ophthalmoscope(开放式间接眼膜镜),可通过机器学习进行糖尿病性视网膜病变检测。

脑瘤

还有一种机器学习系统(运用了深度学习),可以把未经处理的大脑样本进行“柒色”,然后就可以诊断患者是否得了脑瘤。

生物制药

麻省理工学院计算机科学与人工智能实验室 (CSAIL) ,利用深度学习,来发现新的药物组合,用来对抗新冠。

机器学习提供了一些解决方案,可以加速新抗病毒药物的发现和优化。原理就是:通过对药物和生物靶标之间的相互作用,然后进行建模。

这个模型不仅只限于一种新冠毒株,它还可能用艾滋病毒和胰腺癌。

心脏病

研究人员从大量心脏病患者的电子病历库,调取患者的医疗信息,如疾病史、手术史、个人生活习惯等,把这些信息进行建模,来预测患者的心脏病风险因素。

4. 自然语言处理(Natural Language Processing,NLP)

自然语言处理是人工智能和语言学领域的分支学科。

之前文章的SHRDLU,就是一个发展特别成功的NLP系统,那个ELIZA也是一个NLP的应用。

NLP ,简单来说,就是人类和机器之间沟通的桥梁。

因为叫自然语言处理,其中,这个自然语言就是大家平时在生活中常用的表达方式。意思就是平时说的「讲人话」。

举个例子:自然语言:我背有点驼 (非自然语言:我的背部呈弯曲状)。

一些NLP面临的问题的例子:

比如有两个句子:

“我们把香蕉给猴子,因为(它们)饿了”

“我们把香蕉给猴子,因为(它们)熟透了”

这两个句子有同样的结构。但是代词“它们”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不了解猴子和香蕉的属性,无法区分。

这就是NLP要解决的其中一个问题。

NLP 的2大核心任务:自然语言理解 和 自然语言生成

自然语言理解 (NLU,Natural Language Understanding)

自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,重在理解。具体来说,就是理解语言、文本等,提取出有用的信息,用于下游的任务。比如分词、词性标注、句法分析、文本分类、信息提取等等。

目前, NLU 是至今还远不如人类的表现。

自然语言生成(NLG,Natural Language Generation)

NLG就是要把非语言格式的数据(比如:文本、图表、音频、视频等)转换成人类可以理解的语言格式。

NLG又可以分为三大类:

  1. 文本到文本(text—to—text),如翻译、摘要等

  2. 文本到其他(text—to—other),如文本生成图片

  3. 其他到文本(other—to—text),如视频生成文本

自然语言处理具体涉及的内容:

(1)分词 (Word Segmentation)

分词就是将句子等等比较长的文章,分解成以字词为单位的数据结构,为了方便后续的处理分析工作。

分词的方法大致分为 3 类:

  1. 基于词典匹配

  2. 基于统计

  3. 基于深度学习

(2)词性标注

词性标注(part of speech tagging):

词性就是词语的类别:例如:名词、动词、形容词等。

标注词性的原因就是:词性在很大程度上告诉了我们一个词的句法功能,和它周围可能出现的词。

比如:动词(verb)通常出现在名词(noun)后面。

(3)句法分析

句法分析就是分析句子的句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等)。

(4)文本分类(Text categorization)

文本分类:就是按照一定的分类体系,自动标注类别。

文本分类的应用场景很多,比如:

1. 新闻主题分类(文章分类):根据文章内容,给新闻等其他文章一个类别,比如财经、体育、军事、明星等等。

2. 情感分析:比如他是正面情绪、负面情绪、还是中性情绪。一般在影评(比如豆瓣、淘票票)、商品评价(比如淘宝、京东的商品评价)等用的比较多。

3. 舆情分析:和情感分类类似,政府或者金融机构用的比较多。

4. 邮件过滤:比如判断一封邮件是不是垃圾邮件。

(5)信息检索 (Information Retrieval)

从存储在计算机中的文本中,找到满足信息需求的材料。

信息检索的应用领域:网页搜索,邮件搜索等等。

(6)信息抽取 (Information Extraction)

信息抽取就是从文本中,抽取出特定的事件或信息,可以帮助我们把内容进行自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。

比如:从体育新闻中抽取体育赛事信息:主队、客队、赛场、比分等。

从医疗文献中:抽取疾病信息:病因、病原、症状、药物等。

信息抽取是中文信息处理和人工智能的基础核心技术。

(7)文本校对 (Text-proofing)

文本校对就是对文本进行检测和修复。

采用的技术包括应用词典和语言模型等。

(8)问答系统 (Question Answering)

自动问答:就是对于人们用自然语言提出的问题,计算机可以自动地给出答案或者答案列表。

自动问答是自然语言处理领域的一个非常重要研究方向。

到目前为止,最著名的问答系统就是刚才讲的IBM的沃森系统。

(9)机器翻译 (Machine Translation)

机器翻译产生的原因之一就是,语言障碍在一定程度上,制约了全球化的发展。

机器翻译涉及了计算机科学、语言学、数学和其他别的学科,具有重要的科学意义。

机器翻译不是一种NLP的方法,而是一种NLP的应用。

第一个机器翻译的项目就是之前文章里的,1954 年 ,美国乔治城大学与 IBM 公司合作的项目。

(10)自动摘要 (Automatic Summarization)

自动摘要:就是用计算机把大量的文本进行处理,然后产生更简洁、精炼内容。

自动摘要目前有提取(Extraction)和抽象(Abstraction)两种方法。

1. 提取:是通过提取文档中已存在的关键词,形成摘要。

2. 抽象:通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。

目前主流是采用基于抽取式的方法,因为这个方法比较容易实现。

5. 网络安全

网络安全包括反垃圾邮件、反网络钓鱼、上网内容过滤、反诈骗等等。

然后,机器学习在网络安全领域的应用,比较常见的3个就是:

  1. 垃圾邮件检测

  2. 入侵检测

  3. 恶意软件检测

垃圾邮件检测:

机器学习一直都是垃圾邮件检测的重要组成部分,有很多早期的机器学习方法现在还在使用。

具体的方法比如,从邮件提取一些技术细节(如:IP地址和服务器信息等等)。

或者是,建立垃圾邮件分类器。

或者是,使用深度学习模型,来确定含有品牌的电子邮件,是不是来自真实的公司。

入侵检测:

从表格可以看出来,机器学习在入侵检测领域历史也很悠久,涵盖很多方面。在二十多年的研究过程中,不同的机器学习方法也已经适用于多种类型的入侵检测。

恶意软件检测:

恶意软件检测系统:就是检查特定文件,来确定它们是不是恶意的。

具体的应用比如:1996年,IBM的研究人员使用神经网络,对引导扇区病毒(这是一种针对机器启动指令的特殊类型病毒)进行分类。

6. 工业领域

机器学习在工业领域的应用:主要在质量管理、灾害预测、缺陷预测、故障感知等方面。

具体的应用比如:用工业机器人来实现全自动化。

特斯拉(Tesla)的智能工厂,它们公司的生产线,都是由工业机器人完成,并且他们的仓储、物资管理、订单与销售环节都是高度智能化的。

机器学习在工业领域遇到困难的就是:

1. 数据质量的问题:其实就是 “垃圾进,垃圾出” 的问题,差的数据质量,也会导致差的模型。

2. 工程师经验:因为要了解机器学习的相关算法和方法是有一定的门槛。

3. 计算能力:机器学习对计算资源 (GPU)要求越来越高。

4. 机器学习的不可解释性:就是有些算法是很容易给外行的人解释的(比如:决策树,是可以可视化的)。但是有些复杂的算法,很难用语言或者可视化的方式进行解释。

7. 机器学习在娱乐行业的应用

Cinelytic

有一个美国的公司,Cinelytic,这个公司有很多电影的历史数据。

所以他们能做到的就是把电影主题和关键演员的信息进行交叉引用,然后用机器学习来梳理数据中的隐藏模式。

这个软件就可以让用户,输入想要的演员阵容,然后将一个演员换成另一个演员,然后就可以看到换不同的演员是怎么影响电影的预计票房。他们的票房预测模型准确率为是85%。

他们公司的重点业务就是,帮助导演等专业人士,更好的选角和营销他们的电影

Valossa

Valossa是一个视频分析平台。

这个平台还可以自动从视频内容中提取亮点。比如:分析视频信息,根据行动、重要人物、活动来识别视频里的亮点。

这个平台还会检查视频文件,并且可以对每个已经识别的人、物体、场景和音频声音进行索引。然后你就可以使用索引还查找对应的视频片段。比如:你拍摄了一段吃饭的视频,但是你忘了具体这段视频是在你的影片的哪一个时间点上,这个视频索引功能就可以很方便的帮助你查找片段。

广告计划管理器

IRIS.TV公司开发了一个工具叫:广告计划管理器(Campaign Manager)。可以让观众在视频停留的时间更长。

基本上,这个软件就是帮助视频平台实现内容精准分发,然后提升视频播放次数。

分类:分类可以找出这些不同种类客户之间的特征,让用户了解不同行为类别客户的分布特征,从而进行商业决策和业务活动,如:在银行行业,可以通过阿里云机器学习对客户进行分类,以便进行风险评估和防控;在销售领域,可以通过对客户的细分,进行潜客挖掘、客户提升和交叉销售、客户挽留等 聚类:通常”人以群分,物以类聚”,通过对数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低,以便我们度量对象间的相似性,发现相关性。如在安全领域,通过异常点的检测,可以发现异常的安全行为。通过人与人之间的相似性,实现团伙犯罪的发掘 预测:通过对历史事件的学习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。比如:预测销售收入和利润,预测用户下一个阶段的消费行为等 关联:分析各个物品或者商品之间同时出现的机率,典型的场景如:购物篮分析。比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值