搜索与NLP
NLP基础
dzzxjl
大数据 & 推荐算法 工程师
展开
-
NLP词向量表示
NLP词的表示方法类型词的独热表示 one-hot representation向量的维度会随着句子的词的数量类型增大而增大任意两个词之间都是孤立的,根本无法表示出在语义层面上词语词之间的相关信息,而这一点是致命的。词的分布式表示 distributed representation1954 Harris 分布假说 distributional hypothesis选择一种方式描述上下文选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。基于矩阵的分布表示分.原创 2021-12-12 22:19:33 · 684 阅读 · 0 评论 -
【转】初入NLP领域的一些小建议
转载原创 2021-12-12 22:04:20 · 95 阅读 · 0 评论 -
NLP常见任务
句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧实体识别(Named Entity Recognition, NER)信息检索(搜索)对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。信息抽取(Inf.原创 2021-12-12 00:11:33 · 2153 阅读 · 0 评论 -
搜索下的个性化
Q如何理解搜索下的个性化,搜索到底是不是应该个性化原创 2021-11-21 23:17:01 · 307 阅读 · 0 评论 -
用户意图识别OCI
online commercial intentionpass搜索下的意图识别随着搜索资源日渐丰富,传统的网页搜索已经不能完全满足用户的需求了。图片、视频、百科、问答、资讯、地图、公众号、小程序等等垂直领域丰富了搜索结果,目的也是让用户能快速找到所需资源,因此意图识别尤为重要。意图表明用户更有可能找哪种资源,意图的强弱可以作为对不同垂类混合排序的参考,而无意图可以避免无用的召回。推荐下的意图识别用户浏览的目的...原创 2021-11-21 23:14:57 · 452 阅读 · 0 评论 -
ELMo详解
Embeddings from Language Models优势ELMo能够学习到词汇用法的复杂性,比如语法、语义ELMo能够学习不同上下文情况下的词汇多义性Deep contextualized word representationELMo使用双层BiLSTM来训练语言模型,创新是线性组合不同层的word vectors, 作为最终的word representationhttps://zhuanlan.zhihu.com/p/37684922ELMO 的本质思想是我事先用语.原创 2021-11-16 00:02:51 · 137 阅读 · 0 评论 -
GPT详解
Improving Language Understanding by Generative Pre-Training生成式的预训练基于 Fine-tuning 的模式原创 2021-11-16 00:04:55 · 2058 阅读 · 0 评论 -
BERT基础知识
Bert基础知识BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。BERT应用111...原创 2021-11-15 20:15:47 · 377 阅读 · 0 评论 -
语言模型演化史
语言模型演化史Bag-of-words model此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序文本的降维本质上涉及到了文本的表达形式在传统的词袋模型当中,对于每一个词采用one-hot稀疏编码的形式,假设目标语料中共有N个唯一确认的词,那么需要一个长度N的词典,词典的每一个位置表达了文本中出现的某一个词。在某一种特征表达下,比如词频、binary、tf-idf等,可以将任意词,或者文本表达在一个N维的向量空间里。凭借该向量原创 2021-11-15 23:53:04 · 696 阅读 · 0 评论