NLP
Leon_winter
人工智能,大数据领域
展开
-
NLP:TextRank 与 TF-IDF,原理与库使用,关键词提取
文章目录关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:(1)把给定的文本T按照完整句子进行分割,即(2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。(3)构建候选关键词图...原创 2019-12-20 10:49:04 · 1441 阅读 · 0 评论 -
NLP词向量表示:CBOW、Skip-gram、hierarchical softmax、negative sampling
文章目录Skip-gramCBOWhierarchical softmaxnegative samplingSkip-gramskip-gram,即规定了中间词及其上下文窗口大小,会在这个窗口内随机选skip个。CBOWhierarchical softmax设词库大小为V,层次softmax不再计算V个softmax,而是只计算logV个,具体如下:negative sampli...原创 2019-12-12 21:18:25 · 1125 阅读 · 0 评论 -
NLP:语言模型、中文自然语言处理流程、自然语言处理的任务
NLP任务可以拆分成两个串行任务,词表示和下游具体NLP任务。词表示传统的右word2vec,ELMo,BERT等,word2vec包括有名的skip-gram模型和CWOB模型,下游具体NLP任务有机器翻译,对话系统,自然语言理解(NLU),自然语言生成(NLG),命名实体识别等。处理流程:预处理:分词(token),steming,滤词词向量ED:主要获取context(上下文语义)...原创 2019-12-11 20:15:22 · 1174 阅读 · 0 评论 -
NLP:FastText
文章目录FastTextFastText同CBOW的结果很像,但是FastText可以和输出是对一个文本或句子的分类,而不再是中间词根。参考问下:论文地址:https://arxiv.org/pdf/1607.01759.pdffastText原理和文本分类实战,看这一篇就够了:https://blog.csdn.net/feilong_csdn/article/details/886...原创 2019-11-30 23:00:35 · 359 阅读 · 0 评论