工程师访谈 | 初心在方寸,咫尺在匠心,爱奇艺NLP的成长之路

导语

当你打开某个视频App时可能会出现几个场景,比如,你可能会根据标签/分类浏览是否有自己感兴趣的内容,在此同时也会根据你以往的浏览习惯推荐给你感兴趣的内容,又或者直接在搜索栏中输入脑海中的关键词查找……别看这些都是很常见的小动作,背后却有很多人为之努力着,其中用到的一项重要的技术就是自然语言处理(NLP)。

NLP能有效实现自然语言通信计算机系统,仿佛学会了“读心术”,理解人类的语言逻辑,能使海量视频个性化推荐给用户,又或者快速理解和精准的匹配用户输入的关键字并快速涌现出来,努力为用户创造便捷和提供更加精细化的体验。

 浅谈NLP:让机器读懂人类语言成为使命 

到底什么是NLP呢?

它是非常复杂的因为它涉及到人类的认知层面,比如知识、语言、思考、行为等,NLP会和文本、语音、图像、视频等多模态的信息融合学习,其实最难的核心问题有两个:就是语义的歧义和语法的变化,因为人类的语言每天都在发生变化,新词总在源源不断的产生,人类也会因为个体的语音习惯不同产生差异,无法精准统一,而计算机语言是精确的、可枚举的、无歧义的。所以人的语言与计算机语言是不可完全调和的。

当我们遇到不认识的字时,比如“丼”,就会去搜索栏输入类似“井字里面加一点读什么?”这样的问题。如果计算机仅根据字面加以解读,那可能就会显示含有“井”或者“点”的内容,如“井点降水”“井点系统”。

但是我们真正目的是让计算机帮我们找到“丼”这个字。为了避免这样的误解,就需要计算机在字面理解的基础上,更深一层的明白搜索者的想法和意图,也就是NLP团队所研究的内容和方向。

现如今NLP的应用领域十分广泛,包括语音识别 、内容理解、信息检索、信息抽取、问答系统、机器翻译、对话系统等,几乎只要涉及到文本的领域都有NLP的身影。

爱奇艺NLP团队几乎都会涉及到这些技术,目前团队自主研发了词法分析(分词、词性分析、实体识别、词权重计算等)、内容标签、机器翻译、舆情分析等系统,给公司各个业务线提供NLP基础服务。目前已有80个以上的业务线对接了NLP的服务。另一方面,由于NLP团队诞生于搜索团队,他们利用NLP技术不断提升爱奇艺App搜索结果的精准度,优化搜索的使用体验。

目前,爱奇艺在NLP技术领域尤其是在分词、实体识别、内容标签等算法方面,短视频标题上的评测效果都优于学术界和工业界,NLP技术团队因其注重细节、精益求精的工作精神被称为楷模团队。

 匠心源于追求极致,奋战90个日夜只为“奇搜” 

早期爱奇艺还没有一个完整的搜索团队,“当时是搜索、推荐等多个业务整合在一起成立了一个数据组。那时候,搜索用的还是Lucene,(Lucene是早期使用的一种搜索引擎开源工具),对于处于起步阶段的业务,可以快速实现搜索功能。

但是随着公司业务的发展,索引量和搜索量快速的增长,这时候使用开源工具局限性就很明显了,服务的性能、稳定性、可扩展性等都比较差,所以必须要重新开发一套新的搜索系统,来满足公司业务的发展需求。

于是搜索团队仅有的4个人天天挤在一个小会议室里一起,不分白天黑夜的连续奋战了90天封闭开发,他们独立开发了一套爱奇艺的搜索系统“奇搜”终于上线,就这样他们的“奇搜”从无到有,为现今的爱奇艺搜索系统造就了稳健的根基,搜索量也从当时的百万量级,发展到现今日均搜索量数亿的搜索引擎。

于此同时,NLP的基础模块也在这个时候从无到有逐步的被开发出来。第一个模块是中文分词系统,因为分词系统是搜索引擎的基础性模块,对于搜索引擎的效果发挥着重要的影响。

通过不断的进行效果和功能完善,到现在已经发展成为了一个包含分词、词性标注、实体识别、实体链接、词权重计算等功能的词法分析系统,在较好的满足了搜索系统的同时,也进行了技术输出,目前已经给公司超过40个业务线提供了服务,日接口调用量高峰超过了10亿,在公开数据集上的评测效果优于结巴分词、ICTCLAS、哈工大LTP分词等第三方开源工具。

  做思想和行为的践行者,不断突破技术难关 

近年来短视频目前已经成为了一种主流的媒介形态,为了提升短视频的分发效率,NLP团队开始负责短视频的“内容标签”,内容标签作为短视频内容理解的重要手段,其中内容标签需根据不同的短视频内容生成关键词或短语,用来表征短视频的内容,其操作难度很大。“内容标签”的主要应用在个性化推荐、搜索、长短视频关联等等。

“内容标签我们一直在持续优化,如何将业务模型抽象出来匹配到一个合适的算法模型,是我们面对的第一个问题。”NLP团队同事回忆道“在整个技术优化和迭代的过程中,爱奇艺NLP团队从文本模型——文本+封面图模型——文本+封面图+视频理解模型这三个阶段不断提升和迭代,从单一形态的文本模型到多模态的融合方式,首先他们会根据实际应用的需要,使用一种较为适用的模型来解决现有问题。

但在尝试某个模型的过程中,可能会遇到的一些新的难点。他们会就再次出击去突破现有模型的问题。通过不断的进行技术迭代,内容标签的效果得到了明显的提升,目前已经有20个以上的业务使用了NLP内容标签服务。“我们会继续持续关注行业进展,并结合业务方的反馈,持续迭代短视频内容标签模型,以便更好的服务于业务方”。

 

  神奇读心术的秘密,Query理解有妙招  

经历过算法的瓶颈,经历过封闭开发的煎熬,作为NLP技术开发人员的苦与乐,个中滋味他们早已知晓。NLP在爱奇艺的业务应用当中,很大一部分是要同搜索相结合,这其中最为核心的模块就是Query理解。

理解用户输入的Query就是理解用户真正的搜索意图,在搜索的时候更准确地匹配到合适的信息条目。从最初的Query纠错、同义词扩展,到意图识别、语义搜索、知识图谱构建等,每个模块都带来了搜索指标和体验的大幅提升。

到现在NLP团队依然在Query理解上面投入了较多的人力,因为只有Query理解做好了,后面的搜索相关性才有可能取得较好的效果。“Query理解更像是人的大脑,一方面它会理解用户的搜索意图,另一方面根据用户不同的搜索意图,在排序的时候做不同的处理”。

Query的引导在搜索系统中也发挥着重要的作用,它一方面能辅助用户的输入,提升用户的使用体验,另一方面可以对用户做一些引导,把爱奇艺最好的并且符合用户兴趣的内容个性化推荐给用户。

目前NLP团队负责的搜索Suggest、个性化默认搜索词、搜索发现、语音助手等搜索入口,搜索Query的来源占比已经达到了50%以上。将NLP和个性化推荐算法进行结合,不但能发挥NLP团队的特长,还能拓展NLP团队的技能,能更好的满足搜索的业务需求。

  助攻、领跑是技术专家和技术Leader的必备素养  

提到作为技术专家也是团队的Leader时两个角色怎么转换时,团队从事NLP技术研发多年的同事分享道,“两个角色不能脱离需要相互补充相互融合,要自己以身作则,也给团队的同事们起到良好的榜样这样同事才会真正信任你。”

提到对于同行者的建议说道:“技术发展日新月异,要保持一颗持续的学习热情,只有通过不断的学习才能将行业最新的进展应用到项目中;在优化项目效果的同时提升自己的能力,在项目中多尝试,找出现在的问题并进行持续改进。注意思考和总结,把项目的经验变成自己的方法论。”

带领技术团队时,将最大化发挥团队价值、对业务方产生帮助挂在心上。作为专家时,要着重注重团队伙伴的业务提升,与团队小伙伴建立信任关系,帮助他们的成长。对于团队成员,尽量保持公平,多给大家一些机会,以及公平的评价大家的工作成果。无论你是团队中的专家、还是团队的Leader要做到助攻、领跑两不误。

  后记:匠心源于热爱,源于专注  

在爱奇艺简单想,简单做的企业文化中,因为热爱,追求探索;因为简单,所以专注是当前NLP团队坚持的原则。没有哪一份工作是真正轻松的,想要做好一份工作必然需要我们投入大量的时间和精力,去打磨、积累和研究。

在忙碌中,不断挑战新的难题,努力扩展自己的“技能树”,鼓励同事自发驱动各种创新,在提升自己的能力同时,为团队、为他人创造出更大的价值,是工作带给我们最大的满足。

写在最后

 

生命原本就是一个追寻的过程,学会担当,学会原谅,学会扛起责任和义务,哼一支小曲,悠然前行。

END

也许你还想了解2020爱奇艺卡通人物检测识别挑战赛,点击“阅读原文”,前往大赛通道!

扫一扫下方二维码,更多精彩内容陪伴你!