nlp
文章平均质量分 82
不吃鱼的喵_sweet
自律 守时 不计较
展开
-
item2Vector
简介最早看到Item2vec是微软研究院的Neural Item Embedding for Collaborative Filtering,发表于2016年ICML。本文主要是对这篇论文做一些介绍,Item2vec主要思想是借鉴了Word2Vec,并且采用SGNS(Skip-gram + Negative Sampling,思想是用中心词预测周围的词)的方法来生成物品向量,最后只需要计算当前浏览的物品与其它物品的向量相似度,从而找到相似物品。一般像电商网站的“看了也看”、“买了也买”、“相似物品”模块原创 2022-01-04 20:55:12 · 602 阅读 · 0 评论 -
Word2Vec
word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。why?机器学习任务需要把任何输入量化成数值表示,然后通过充分利用计算机的计算能力,计算得出最终想要的结果。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。one-hot一种最简单的词向量方式是 one-hot represen...原创 2020-03-15 13:43:41 · 228 阅读 · 0 评论 -
中文分词技术——字符串匹配的方法
中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。基于规则的分词方法这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描...原创 2019-05-17 15:34:21 · 3439 阅读 · 1 评论 -
nlp资料总结
学习路线 https://blog.csdn.net/asialee_bird/article/details/85702874 学习资源 https://blog.csdn.net/weixin_44356285/article/details/86004347 https://blog.csdn.net/u013510838/article/deta...原创 2019-05-17 21:09:45 · 340 阅读 · 0 评论 -
nlp总体框架
https://blog.csdn.net/valada/article/details/80892583获取语料语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)...转载 2019-05-18 08:42:20 · 723 阅读 · 0 评论