TechDay实录|摘取皇冠上的明珠,中文NLP的不二选择——PaddlePaddle

NLP (Natural Language Processing)自然语言处理是人工智能的一个子领域,它是能够让人类与智能机器进行沟通交流的重要技术手段,同时也是人工智能中最为困难的问题之一。因此,NLP的研究处处充满魅力和挑战,也因此被称为人工智能“皇冠上的明珠”。

目前各家主流深度学习框架,都开放了相应的 NLP 算法模型。其中,百度 PaddlePaddle 基于自身技术优势,在中文NLP领域提供丰富官方模型,全方位满足各种NLP任务需求。

1 月 20 日下午 ,第二期百度深度学习开发者·技术公开课在百度大脑创新体验中心开课。百度资深研发工程师为现场的开发者们介绍了 PaddlePaddle 在 NLP 方向开源模型及技术实践,Google 机器学习开发者专家和高级算法专家孔晓泉则讲述了基于 PaddlePaddle 的中文分词引擎应用案例。

939

 

中文分词小试牛刀,100行代码的分词引擎实践

与大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字符串的形式出现,因此对中文进行处理的第一步就是进行自动分词,即将字符串转变成词语串,这也是处理中文的语义分析、文本分类、信息检索、机器翻译、机器问答等问题的基础。如果分词效果不好,很有可能会对后续的任务造成严重的影响。

谷歌机器学习开发者专家和高级算法专家孔晓泉,为大家分享了轻量级中文分词引擎——PaddlePaddle Tokenizer。该引擎基于PaddlePaddle Fluid API打造,充分发挥PaddlePaddle代码精简、高效、可读性高的特点,核心代码只有不到100行,带大家快速了解中文分词模型的设计思路。

模型方法:

Embedding(字符嵌入) + BiLSTM(双向LSTM) + CRF(随机条件场)

系统设计:

通过将分词信息编码成 BMES (Begin, Middle, Eed, Single) 标签,从而将分词问题转换成 BMES 标签的序列预测问题。利用 Embeding + BiLSTM 提取字符的上下文特征,利用 CRF 同时考虑字符级别和上下文序列的特性,从而预测全局最优 BEMS 序列。为了抑制模型过拟合(Overfitting),在模型中使用了 Dropout 技术。

代码实现:

在代码实现层面,PaddleTokenizer 使用了 PaddlePaddle Fluid API,代码精简、高效、可读性高,核心代码少于100行。同时,PaddleTokenizer 通过提供 HTTP 接口的方式演示了如何使用 PaddlePaddle inferencemodel 对外提供服务。并提供了简洁的 WebUI 作为客户端,方便用户进行实际分词效果的测试。

系统分析与演示:

核心代码片段:

1. 定义输入变量

939

2. EmbeddingLayer

441

3. BiLSTMLayer

939

4. DropoutLayer

620

5. CRFLayer

514

分词效果展示:

939

GitHub地址:https://github.com/howl-anderson/PaddleTokenizer

丰富全面的NLP模型合集——PaddlePaddle官方模型库

864

PaddlePaddle Tokenizer向大家展示了PaddlePaddle的高效易用,在PaddlePaddle官方模型库中,PaddlePaddle还提供了丰富的NLP模型,包含词法分析、语义匹配,还有情感分析、黄反识别用到的分类模型等,为开发者打造了功能全面的中文NLP工具库。

在公开课有限的时间里,百度工程师主要讲解了以下三大模型:

中文词法分析(LAC)

820

相比轻量级的PaddlePaddle Tokenizer,LAC的功能更加丰富,是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC基于一个堆叠的双向GRU结构,最上层建CRF 来预测整体模型,这比传统基于统计的模型在分词的准确性上有明显提升,也是PaddlePaddle 在中文 NLP 领域长期深耕的体现。

DAM

856

在自然语言处理很多场景中,需要度量两个文本在语义上的相似度,这类任务通常被称为语义匹配。例如在搜索中根据查询与候选文档的相似度对搜索结果进行排序,文本去重中文本与文本相似度的计算,自动问答中候选答案与问题的匹配等。

DAM (Deep Attention Matching Network)为百度自然语言处理部发表于ACL-2018的工作,用于检索式聊天机器人多轮对话中应答的选择。DAM受Transformer的启发,其网络结构完全基于注意力(attention)机制,利用栈式的self-attention结构分别学习不同粒度下应答和语境的语义表示,然后利用cross-attention获取应答与语境之间的相关性,在两个大规模多轮对话数据集上的表现均好于其它模型。

MM-DNN

839

MM-DNN 模型的主要任务是计算 query 、检索结果和推荐内容。计算query 与搜索结果的相似度在整个排序任务中是非常重要的权重。该模型的开源版本无论是在训练效果还是训练速度上都有明显优势。百度搜索业务中也涉及了这一算法模型。

转载于:https://my.oschina.net/u/4067628/blog/3005543

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
系统根据B/S,即所谓的电脑浏览器/网络服务器方式,运用Java技术性,挑选MySQL作为后台系统。系统主要包含对客服聊天管理、字典表管理、公告信息管理、金融工具管理、金融工具收藏管理、金融工具银行卡管理、借款管理、理财产品管理、理财产品收藏管理、理财产品银行卡管理、理财银行卡信息管理、银行卡管理、存款管理、银行卡记录管理、取款管理、转账管理、用户管理、员工管理等功能模块。 文中重点介绍了银行管理的专业技术发展背景和发展状况,随后遵照软件传统式研发流程,最先挑选适用思维和语言软件开发平台,依据需求分析报告模块和设计数据库结构,再根据系统功能模块的设计制作系统功能模块图、流程表和E-R图。随后设计架构以及编写代码,并实现系统能模块。最终基本完成系统检测和功能测试。结果显示,该系统能够实现所需要的作用,工作状态没有明显缺陷。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。进入银行卡列表,管理员可以进行查看列表、模糊搜索以及相关维护等操作。用户进入系统可以查看公告和模糊搜索公告信息、也可以进行公告维护操作。理财产品管理页面,管理员可以进行查看列表、模糊搜索以及相关维护等操作。产品类型管理页面,此页面提供给管理员的功能有:新增产品类型,修改产品类型,删除产品类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值