自然语言处理
文章平均质量分 75
一些关于自然处理的笔记
zoujiahui_2018
统计学博士
展开
-
TF-IDF(词频-逆文档频率)
利用关键词提取可以弥补这一不足,关键词提取是一种自动化的文本处理技术,它可以从一篇文章中自动抽取出最能代表文章主题和内容的若干个词语或短语。TF-IDF (Term Frequency - Inverse Document Frequency,词频-逆文档频率)是信息检索中衡量一个词语重要程度的统计指标,广泛应用于文本分析领域。,而 IDF 是这个词语在所有文档中出现的频率,然后取对数,就得到这个词语的 IDF 值。注:当单词A在一个文章中出现的频率很高的时候,我们倾向于认为A是一个重要的词汇。原创 2024-01-13 20:51:08 · 762 阅读 · 0 评论 -
自然语言处理笔记
中文分词的工具有:jieba(核心算法是张华平的Nshort算法), SnowNLP, NLPIR汉语分词系统, THULAC, PkuSeg等。中文的情感词典有:NTUSD, 正文褒贬词典TSING, 知网HowNet等。英文的情感词典有:LIWC, SentiWordNet等。原创 2024-01-13 20:31:19 · 604 阅读 · 0 评论 -
R语言中利用jiebaR包实现中文分词
文章目录介绍worker()函数介绍参数介绍new_user_word()函数介绍参数介绍freq()函数介绍实例利用默认库进行分词利用自定义词库进行分割通过文本文件添加用户自定义词库注意事项自定义停用词进行分词并词频统计词性标注注意事项提取关键词介绍能够实现中文分词的R包有Rwordseg包和jiebaR包,从目前来看jiebaR包的功能更加强大,效率也更高。这里将介绍如何使用jiebaR包实现中文分词。worker()函数介绍worker()函数可以创建一个jiebaR对象,包括分割器、查找器、原创 2022-04-28 18:55:07 · 5646 阅读 · 3 评论 -
word2vec的详解
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。word2vec就是一种对文本中词一种向量编码方式,其重点考虑了上下文之间的联系,比one-hot编码能体现出更多的信息,广泛在自然语言处理中被应用到。word2vec中包含了跳字模型(skip-gram),连续词袋模型(continuous bagging of words,CBOW),欠采样,层序softmax(Hierarchical Softmax)等转载 2020-08-25 15:42:36 · 653 阅读 · 1 评论 -
R语言中利用word2vec包创建词向量
介绍将词汇向量化是自然语言处理的基本一步,这里解释如何利用R语言中的word2vec实现该功能。函数word2vec()介绍word2vec( x, type = c("cbow", "skip-gram"), dim = 50, window = ifelse(type == "cbow", 5L, 10L), iter = 5L, lr = 0.05, hs = FALSE, negative = 5L, sample = 0.001, min_count翻译 2022-05-05 21:03:09 · 1423 阅读 · 0 评论