2017搜狗AI技术开放日

最新推荐文章于 2019-03-20 20:47:14 发布

TensorPro

最新推荐文章于 2019-03-20 20:47:14 发布

阅读量433

点赞数

本文链接：https://blog.csdn.net/weixin_39312449/article/details/79602018

版权

  一、人工智能60年回顾 

  概述性的报告。知识学习，知识是对问题的定义。 

  二、①AlphaGo Zero 从0开始学习，不依赖于人工设计特征，不依靠人类棋谱。——完全摆脱人类知识，从零学习。 

  ②深度学习存在的问题： 

        大数据Vs小样本  黑箱Vs可解释     一次性学习VS增量学习   固执己见VS知错能改   猜测VS理解 

  三、机器翻译 

      ①历史进程： 

                     基于规则的机器翻译---》基于实例的MT---》统计MT-----》神经网络MT 

              人工定制规则          在数据中寻找相似实例   在data中学习规则  直接进行翻译 

       ②神经网络机器翻译： 

                               本质是编码解码过程 

       ③搜狗的使命：让表达和获取信息更简单 

           搜狗AI战略：自然交互+知识计算 

         搜狗机器翻译架构：以编码器—解码器为基本架构 

               基本技术：①多层编码——解码器 

                                ②聚合  ③实体标签转换④模型平均⑤GRU。。。。 

       ④特定场景翻译： 

                 诗词、成语翻译——》难以获得对应的双语数据进行模型训练 

                 解决方案：使用存在的中文释义进行翻译（就是解释一下的中文），使用释义后结果提升86% 

                 菜单翻译：中文菜单：烹制方法、主料、配料、汤汁 构造机器翻译规则 

                                   英文菜单：不同国家菜品不同、不同餐馆命名方式不同 

                                               基本组成方式：名字+配料（配料相对更关键） 

                                                                        挖掘配料单词及其翻译，根据配料词及其翻译生成翻译规则 

  四、语音 

      基于深度学习的频谱映射（CNN，RNN，LSTM） 

      展示了一些语音降噪等效果（非特定目标人的单通道语音分离-PIT） 

  搜狗语音深度学习平台： 

                                    应用层面：语音识别/合成 

                                    算法：DNN、CNN、LSTM、GRU、seq2seq 

                                    分布式系统：并行训练、自动伸缩、资源隔离... 

                                    基础设施：GPU、CPU、FPGA 

五

         （1）搜狗从搜索走向问答 

                 智能时代的信息获取： 

                     机器计算+人工整理   --------------------------》机器计算（更精准、更便捷） 

         （2）搜狗立知        产品目标：为搜索用户提供精准答案 

                  分为三大类：事实类：例如，我国最大的淡水湖是？   

                                       非事实类（分析类）：例如，怎么修改微信密码？ 

                                      观点类：例如，喝啤酒上火吗？ 

  技术路线： 

             基于知识图谱： 

                   知识挖掘 

                           结构化和半结构化数据 

                           实体识别/链接/关系抽取 

                   知识存储表示 

                           实体《属性、值》 

                           知识图谱三元组《S、R、O》 

                   知识应用 

                            查询语义分析 

                            知识库检索 

                基于搜索 

                       知识挖掘：全网（包括无结构化）数据 

                                         问答抽取/质量判别 

                        知识存储表示： 

                                         QA pair ，实体库 

                                          在线实时计算 

                        知识应用 

                                     查询意图分析 

                                     检索排序、语义表示 

                                      LAT/实体识别 

                                      答案抽取和生成 

        （3）搜狗知识图谱 

                            实体数量：亿级     人物类、地理类、机构类、影视作品类 

                            关系数量：数十亿 

 
 事实类问答关键步骤： 首先理解问题，理解用户查询意图 

                                       相关文档检索，利用搜狗网页搜索，检索若干相关性较高的候选网页         

                                      答案抽取：结合问题理解，对相关网页进行候选答案抽取和精细计算，得到最终答案。 

 
 非事实类：QA数据挖掘  

                    问答意图识别：难点是自然语言描述多样性、隐式意图缺乏疑问词 

                     基于线性模型/pattern的判别：N-gram特征+LR模型 

                                                                     种子疑问词扩展查询+WOrd2Pharse抽取 

                     基于深度神经网络意图判别： 

                                                     利用点击行为构造正负例 

                                                      疑问词/强pattern 过滤例 

                                                       亿级训练集+LSTM 

 
 非事实类问答：答案质量判断 

                        目标：判断文本是否能够作为问题的答案 

                        方法：基于深度神经网络，判断候选答案对问题的满足程序（其实就是找一个损失函数） 

                         数据：人工标注、CQA网站数据（？什么网站） 

                      深度学习模型架构： 将问题+答案通过嵌入层分别连接到LSTM神经cell ——》match layer（对两股数据融合）———》LSTM layer————》全连接层——》最终输出 

 
 观点类问答： 数据来源：优质问答站点数据 

                         互斥问题识别：类型有好不好，能否，真假 

                         相似性问题聚合：句法和语义分析-》主干抽取 

                                                      短文本相似度+聚类 

                         情感倾向分类：特征提取：pattern ，统计，上下文，深度学习分类模型 

                          答案聚合排序：答案相关性、丰富度、用户行为特征 

     观点类问题难点：观点隐含表达 

                          Q：中国男篮能进奥运前四吗？ 

                          A：有点悬，除非超常发挥。               （负） 

                          Q：孕妇可以吃臭豆腐吗？  

                          A:我吃了好几次了                               （正） 

              任务：识别答案观点类型，正向、负向、其他 

              方法：基于深度神经网络 输入是：问题及其对应的回答 输出是答案观点类型 

              数据：人工标注大规模训练数据，规则自动抽取标注 

             深度神经网络模型架构：图片。 

  六、人工智能历史沉浮 

     1。模型框架演变 

             人工特征+分类器 ———》深度特征+分类器 ————》端到端学习 

  详细说明：①传统框架是针对问题选择或者设计特征；可以学习的通用分类器；需要大量的经验积累。 

                     传统机器学习专家——》老中医。根据问题不同设计特征和分类器的组合。问题是：选择特征有限，而且耗时太长。严重依赖经验。。。。 

                    ②过度阶段使用深度神经网络学习特征代替人工设计特征；更加快速有效的处理新问题；机器视角代替人工视角，学习到的特征更加适合机器。 

                     ③后深度学习时代：特征学习和分类器学习置于统一的框架联合优化；强调从图像或者视频输入到最终的目标输出之间端到端的可学习；多输入，多输出，多任务之间的自动协调；从两步贪心策略到一步全局最优。 

                          当前的端到端可学习，使用训练好的模型方便快捷，深度特征远优于人工设计的特征。 

                          分步优化——》整体优化。 

 
 七   搜狗——》理解用户查询 

       1。动机：满足用户查询意图 

       2。方法：聚类、主题模型、语义分类（semantic classification） 

      
   3。使用案例：双11用户查询意图      思考：这些数据是怎么得到的？通过搜狗输入法！ 

  八 搜狗图片搜索中的机器学习技术 

  1。相关性特征：查询词--图像相关性特征 

                             查询词--站点相关性特征 

                            结合图像的关键词提取 

  九 核心term 识别 

     case1：深圳鼻子整容多少钱？      深圳/ 
 鼻子/ 
 整容/多少钱  。 

TensorPro

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫