NLP
文章平均质量分 64
Mon Roi
这个作者很懒,什么都没留下…
展开
-
TF-IDF_NLP_2
一篇文章或文档中,哪些词对文章更重要?哪些词可以作为关键字?自动提取关键词可以快速地从海量的信息中提取和获取信息。 1、关键词提取的机器学习方法 有监督:构建一个丰富的词表,判断每个文档与词表中每个词的匹配程度,优点是准确,缺点是维护词表和标注的成本高。 无监督:2个常见算法是TF-IDF算法和TextRank算法。 2、TF-IDF算法 参考阅读:https://www.cntofu.com/book/85/nlp/tf-idf.md Term Frequency - Inverse Document原创 2021-04-08 20:34:49 · 118 阅读 · 0 评论 -
Jieba分词_NLP_1
Jieba分词_NLP_1 NLP:自然语言理解,即计算机对人类语言进行理解 Jieba git地址:https://github.com/fxsjy/jieba/ 1、特点 四种分词模式: 精确模式:试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现原创 2021-04-08 15:10:28 · 92 阅读 · 0 评论