知识图谱
带着托托写代码
这个作者很懒,什么都没留下…
展开
-
word2vec词向量实战
https://blog.csdn.net/qq_27586341/article/details/90025288 简单实战如代码所示 from gensim.models import Word2Vec import jieba #定义停用词、标点符号 punctuation = [",","。", ":", ";", ".", "‘", '“', "’", "?", "、", "-",...原创 2020-01-12 20:47:07 · 288 阅读 · 0 评论 -
第三章 短语挖掘和实体识别
一. 短语挖掘 1. 什么是短语挖掘 这个的短语挖掘指的是词汇和短语的挖掘,是一个统称。短语挖掘输入的是领域语料,输出的是领域短语。领域语料是大量文章融合在一起组成的。 2. 高质量短语的评估维度 a. 频率,一个n-gram出现的频率越高,那么它是高质量的文章的可能性就越高。 b. 一致性,n-gram中的单词的搭配是否合理 b. 信息量,高质量的短语需要表达一定的主题和概念,比如“...原创 2020-01-12 17:37:52 · 2148 阅读 · 0 评论