淘宝吴雪军:自然语言处理技术在搜索和广告中的应用

摘要:编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告

编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下:

我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网产品,它们前端都非常简单,但后台系统架构极其复杂。

今天主要讲三个方面的内容:第一、主要是介绍一比较典型的互联网应用体系;第二、主要介绍NLP技术在搜索中的应用;第三、介绍NLP技术在物联网广告中的应用。

NLP技术体系

首先介绍NLP技术体系,NLP技术体系在不同的应用需求、不同的领域下,拥有不同的组织形式。下图是一种比较典型的面向互联网应用的技术体系。

在05年之前NLP技术在实际应用中,特别是互联网应用还中比较多。07年时我参加自然语言学者技术研讨会。会上很多人都是国内做NLP技术、自然语言处理技术的前沿代表人物,当时我们讨论的主要问题就是NLP技术在实际应用中有没有价值?

底层为数据层,包含三种类型的数据,1.词典,词条译本在分词或一些词法分析内可用到;2.知识库,内包含一些语言,语义分析处理是比较重要的功能;3.统计的数据,主要是词汇共现、ngram数据。以上比较有代表性的三个数据。

第二层是Term级。分为词法分析、Term语义表和Term关系。1.词法分析包含分词分词、词性标注和未登录词识别;2.Term语义表包含属性/类别和语义的表示;3.Term关系包含同义关系、词汇见关系和知识库构建。

第三个层短串涉及一些变化,分为短串解析、短串语义表示和短串变换。1.短串解析分为结构分析/浅层句法分析和Term重要性分析;2.短串语义表示包含短串主题分类短串语义表示;3.短串变换包含同义词替换、语义归一化以及省略纠错

第四个层为篇章级,分为单文档分析和多文档分析,在研究领域应用较多,在分析的领域,有诸如PLSA、LDA这样海量的文本分析技术。

NLP技术在搜索中的应用

侧重介绍在NPL在搜索引擎和互联网广告的应用,下图为一个简单的搜索引擎基础架构,第一块为最基本的网页抓取,第二块是网页的分析、索引。第三大块为一个查询。蓝色的三块是NLP技术应用比较多的三个方向,我将介绍这三个方向中NLP的应用。

query分析/Rank

 一、短串分析技术,涉及到结构的分析,Term重要性的标注,对短串进行初步的处理。为后续查询和语义的相关度计算做一些基础的分析。由于查询需求有很多不同的表示方法,我们会对query进行改写,使其能比较好的召回。这其中其实最主要的技术是短串的语义相关性。    

二、语义规化,即相同语义用不同方法表示,这种语义规化技术在搜索引擎中应用广泛。语义短串在这里能很好的被应用,用一种相同的形式表示,然后计算它们之间的关联。

三、纠错,我们需要分析用户需要什么,对query需求的识别能针对性的满足用户不同的需求,或者整合成特定的数据库用来满足精确的需求。快速需求识别是比较重要的应用,其中的技术可被理解为对query语义类别的识别,即短串的分类。

在排序上的应用,NLP技术在这里面体现是相关性计算,query和网页相关性。在搜索内Rank代表两个体系,像百度、谷歌规则为主的系统以及像微软、雅虎用这种机器学习的Rank系统。在机器学习的Rank起到的作用还是最基本的query文本的语义表示,这些特征。规则系统里面会涉及到一些语义的计算、相关性的识别和相关性计算。

在网页分析和索引中应用主要涉及对象是网页title、Term权重计算、网页语义表示和网页类别识别。

互联网广告技术整体架构

NLP在互联网广告技术中应用包含了三种类型的广告技术:用户行为分析、网页内容分析/站点分析和Query分析,涉及到很多基本的广告库分析,索引。

 如果能定向广告会涉及到用户行为分析。要把用户行为表成一个能去检索广告的形式,如果用户行为很多,这里面会涉及到行为排序。如果广告库很小,我们可能对这个行为的表示可能会抽象一些。如果整个广告集合很多,侯选广告很多可以分层次。对于内容广告而言,会涉及比较多的对网页内容的分析,这方面主要涉及到最基本网页主题的提取,另外还会涉及到关联内容分析,因为广告一般都具有商业价值的内容,我们会把广告内容关联到有商业价值的内容上去,做到对广告的匹配。

对于搜索广告而言,请求分析主要是query分析,与搜索大体一样。对用户的基本请求解析完之后,会涉及到怎么去匹配广告如果广告集合很大我们不可能对每个广告做相关性计算,所以先要保证能够把相关的广告召回做一个集合,然后对这个集合进行相关性计算。

   

最后一方面的应用是广告排序,收费在搜索广告里是很重要的形式,按点击量来收费,所以排序最主要的是预测其点击率作为排序的依据。预测点击率后我们根据其价格算出其基本的收益。其最核心的技术是预估点击率,CTR是排序的核心。语义特征的表示,以及相关性的机损,广告可以有一部分特征语义来表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值