知识图谱在企业中的典型应用和注意事项

最新推荐文章于 2024-06-06 15:39:05 发布

WGH100817

最新推荐文章于 2024-06-06 15:39:05 发布

阅读量1.1k

点赞数

文章标签：人工智能大数据数据库

原文链接：http://www.cnblogs.com/jpfss/p/10875715.html

版权

认知计算，是人工智能的一个前沿分支领域。目标是让计算机具备和人类一样的思考和推理决策能力，说的通俗一点就是打造一个机器大脑。不同于AlphaGo只是在棋谱和下棋上具备专家智能，认知计算技术可以让计算机在更广泛的领域，学习人类知识，了解人类语言，帮助人类决策。而知识图谱则是让计算机表示知识、学习知识和进行知识推理的关键。

为企业提供各种服务，是认知计算和知识图谱技术，在成千上万的企业从信息化到数字化、再到智能化、最终到智慧化的漫长转型过程中，可以大展宏图的领域。企业的人、事、财、产、学、研等多个方面，都急需现代化的人工智能技术来提高产出、降低成本和优化效率，而在当前阶段，大多数企业仅完成了基本的信息化改造。

知识图谱在下面一些典型的企业服务场景可以产生超出预期的效果：

营销决策：当企业生产和销售的商品有着复杂的流通环节，例如通过成千上万家多级经销批发商卖到数以百万家的终端客户时，自动的汇总销售流向数据，以进行营销决策，存在较大的技术难题，因为这些数据中有超过40%是非标准数据，以往需要大量人工核对，费时耗力。另外，进行营销决策往往还需要对比竞品数据、分析消费者数据，对这些海量的非结构化数据针对业务需求进行细粒度的分析挖掘，该角色更是非知识图谱技术莫属。
供应链优化：企业生产商品的过程中通常要采购各种不同的原材料、辅料和半成品等，如何集中采购，如何找到物美价廉的供应商，如何及时了解供应商的情况，都依赖于以知识图谱技术为基础的非标准和非结构化数据分析技术。例如，自动的搜集和比对每一种原料辅料在各个电商和渠道中的价格和销量，自动的搜集和比对招投标文档找到行业中某款产品服务中标最多或价格最优的供应商，甚至于将不同工厂不同ERP中的原料辅料类别体系合并以进行集中采购。
客户服务：无论是在售前寻找和筛选潜在客户,还是在售中与有意向的客户进行交谈,还是在售后对客户态度进行分析统计,都可以基于人工智能理解客户的意图,这需要根据业务场景的需求,制定与品牌和产品属性相关的知识图谱,来进行细粒度的语义分析。例如,搜集各大社交论坛中的用户帖子,寻找对己方产品有潜在购买意愿的客户言语,并记录客户ID; 将客服呼叫中心中的电话录音,或者门店内的店员录音,进行深层语义分析,检查业务员是否按照培训去推销,或检查客户的需求是否得到满足。
产品研发：在产品的研发中,通常需要阅读海量的专利文献、用户档案、用户评价、产品说明手册等文档,并针对其中的知识点进行查找、分析和统计。基于知识图谱技术,可以很好的实现这一点。例如在研发新药的过程中,借助于知识图谱, 可以定义和抽取成千上万份病历的病人信息、用药史、服药效果、症状等上百知识点,并进行对比分析统计,开展新药研发;在研发新的保健产品的过程中,可以针对互联网用户的声音进行分析统计,得到细分用户群体对每一个产品功能维度的态度,帮助开展C2M。
财务法务：在企业的财务、税务和法务等相关环节,由于涉及到大量专业文档的处理,并对处理精度有着极高的要求,知识图谱和认知计算能发挥重要的作用。例如,快速的比对客户返回的合同与己方合同模版的差异,并强调重要的改动之处;对销售数据快速统计,并与进销存系统数字核对,计算给渠道代理商的返点,以做到及时返点;根据业务合同的内容,快速在财务系统中创建一条相应的财务记录,自动填写相关的名目并附上证据;自动搜集政府政策文件查找符合企业的税收和扶持政策。

从上世纪九十年代到现在,将近三十年的时间里,无数的优秀公司在企业信息化和数字化进程中,提供了大量的软件产品和解决方案。为什么上面这些典型应用需求一直到今天都没有很好的解决, 有待于知识图谱和认知计算的技术来解决呢,主要有以下几个原因:

对非标准数据的处理存在较高的技术难度:传统的产品和方案聚焦于对企业内部单一系统的数据进行处理,它们通常存在一定的标准,而且大部分的系统都限定企业内部的某一类人员来使用系统, 并在使用前开展充分的培训, 因此,用它们来完成信息化是没有问题的。但是, 一旦企业需要处理外部的数据, 无论是外部互联网的数据, 还是其它企业或外部人员提供的数据,这些多源异构的数据与企业内部的数据缺乏统一的标准, 这带来了极大的技术挑战。当数据量较小时, 往往还能采取别名库的方式应付, 一旦数据规模较大, 智能建立主数据并与其语义对齐, 得借助于知识图谱方能完成。
对非结构化数据的处理存在较高的技术难度: 传统的产品和方案通常处理结构化数据,也就是存储在各种关系数据库表格中的数据。这些表格的每一个字段, 往往是事先已经定义好的数据, 可以直接计算; 而在实际中存在大量的非结构化数据, 如上述各种专业文档和用户档案都是非结构化的文本, 要对其进行处理, 首先需要针对业务场景的需求将其结构化。以售后的口碑分析为例, 任何一条用户评论, 需要识别出他对哪个品牌、哪款产品、哪一方面是满意还是不满意, 打上各种结构化标签。这种针对业务需求将非结构化文本结构化的工作, 非知识图谱莫能胜任。
传统的搜索技术无法针对业务需求进行精准计算: 在对非标准和非结构化数据进行处理时, 传统的产品和方案通常采取搜索的方式来进行处理。将企业对大量数据进行分析计算的需求, 转化为使用若干关键词进行近似查找, 这种方式, 无法满足在生产环节中对结果的精度和召回率要求。例如, 对大量的用户评论, 或是咨询文档, 它们首先是对其分词，然后建立倒排索引进行搜索, 但未考虑两个关键点, 一是分词技术无法针对业务需求对文档进行建模, 索引词绝大部分对业务无用; 二是倒排系统所使用的排序算法是近似算法, 它甚至无法判断返回的结果是否真的有用。而这些困难恰好是知识图谱技术可以解决的。

随着深度学习计算的飞速发展, 它们与知识图谱不断融合, 可以帮助企业解决以上技术困难,并在上述典型的应用场景中发挥重要作用。那么, 对企业而言, 选择合适的技术供应商和产品方案, 对成功的项目实施至关重要。企业选择合适的供应商通常要注意哪些问题呢? 主要有以下几点:

是采取分词等传统方式还是采取知识图谱来处理文本: 传统的搜索和文本分析技术,会采取分词、分类和命名实体识别等技术对文本进行处理, 但是这些技术无法直接表示业务需求中的语义, 因此在上述应用场景中难以发挥实质性作用。而知识图谱则是直接讲业务知识体系表示为可计算的形式, 并用来表示文本语义进行计算。
是否解决了知识建模的冷启动问题: 在企业服务中对非标准数据和非结构化数据进行分析和计算,需要定义成百上千类的概念与关系, 随着计算的深入, 待定义的概念和关系还会越来越多, 而对每一类概念进行识别和抽取在工作量上都相当于对一类命名实体进行识别抽取。采取传统的技术方案, 对每一类概念的抽取, 都需要人工标注大量的语料, 这在人力和时间成本上都是极其昂贵的, 称之为冷启动问题。检查供应商是否具备足够有效的工具和方法来解决这一问题, 将是项目能否成功的关键。
是否过多强调知识存储而非知识抽取与推理:不少大数据和人工智能解决方案, 都是基于开源的软件系统打造出的, 它们仅具备对知识进行存储的能力, 而不具备对知识进行学习和开展推理的核心能力。因此, 这些产品方案常会重点宣传自己有强大的HADOOP等大数据平台技术和图数据库技术, 而不是对知识进行抽取和推理的技术,因为后面这些环节基本没有能够实用的开源软件方案, 但它们却是知识图谱能够真正发挥技术效力的地方。
是否提供了一种可解释的人工智能: 知识图谱的一个强大技术威力在于, 以它为基础对各种数据进行分析计算时, 能得到一种可以解释的人工智能结果, 也就是顺着计算的路径, 可以一步步回溯计算机是如何推导出这一结论的, 并能与人类的经验知识相验证, 它所提供的是一种白盒式的人工智能。而如果不针对业务需求进行知识建模, 光采取分词等传统技术, 计算机并不知道每一个文字语句的含义, 只能采取一种大概率统计的方式, 给出一个黑箱式的结果, 至于为什么产生这一结果, 这一结果是否严格符合业务需求, 计算机自身并不知晓。