NLP
文章平均质量分 85
领域行为规则抽取
m0_38024097
这个作者很懒,什么都没留下…
展开
-
NLP_4规则集构建
设计框架 文本 构建触发词字典 : LDA->触发词 关系模式提取 : 关系模式 触发规则预泛化 : GloVe->词向量->kNN->N个聚类簇 提供关系模式 触发规则后泛化 : DParse->触发规则 成功构建触发规则集 构建领域行为触发词字典 首先提取关键词,保存为字典,进行去重,构造领域触发词字典。 对LDA主题模型进行评估,首选项是主题数,采用困惑都法,获取最优模型,计算perplexity-主题数折线图来衡量主题数量的优劣。 Perpl原创 2020-11-23 17:58:45 · 341 阅读 · 0 评论 -
NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征
提取关键词中使用的主要算法 TF_IDF 字词的重要性随其在文本中出现的次数而正比增加,同时会随之其在语料库中出现的频率而成反比 计算公式为tfidf=tf∗idftfidf = tf* idftfidf=tf∗idf 前者是词频后者是逆向文件频率。 tf=i/N tf = i/N tf=i/N idef=log2(nk) idef=log_2(\frac{n}{k}) idef=log2(kn) 其中k可以加上1以避免分母为0。 实现也相对简单,所以这里直接开始修改原有代码并尝试一定的优化。 中文原创 2020-11-18 17:46:08 · 345 阅读 · 0 评论 -
NLP_1 中英文预处理及简单的相似度分析
词袋构建及相似度计算 首先要进行分词,分别是英文以及中文的:nltk以及jieba。 这里首先展示英文的处理和构建: zip函数 组合多个元组以创建列表: import numpy as np a=[1,2,3,4,5] b=set(range(5)) c=np.arange(5) d='dsqnb' ss=zip(a,b,c,d) print(ss) 在分析相似度的时候,可以采用余弦值来作为两个向量的相似度,如下: from math import sqrt def similarity_with_2_原创 2020-11-18 16:37:36 · 567 阅读 · 1 评论