自然语言学习
文章平均质量分 92
chuntingting
这个作者很懒,什么都没留下…
展开
-
基于Levenshtein计算asr准确率
ASR常用测试指标字正确率、字准确率、字错率、句错率等方法一:基于Levenshtein原理统计方法二:基于“最小代价匹配”原则运用动态规划算法设正确文本字数为 N,识别结果文本字数为 M,按照识别结果文本与正确文本根据“最小代价匹配(Levenshtein)”原则运用动态规划算法,得到正确识别字数 Mc、删除错误字数 D、插入错误字数 I, 和替换错误字数 S,则有:N=Mc+S+DM=Mc+S+I定义以下性能指标:1.句错率(SER)句错误率:Sentence Error Rate原创 2020-10-18 00:11:07 · 1790 阅读 · 1 评论 -
基于ML的中文短文本聚类
基于ML的中文短文本聚类整个过程分为以下几个步骤:语料加载分词去停用词抽取词向量特征实战tf-idf的中文文本K-means聚类实战word2Vec的中文文本k-means聚类一、引入,python 依赖包,并加载语料import randomimport jiebaimport pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import TfidfTransformerfrom skle原创 2020-07-07 21:18:51 · 1112 阅读 · 0 评论 -
NLP关键词提取(一)
NLP关键词提取(一)jieba分词将csv文件的数据按照一定规则放入dataframe中提取role、key_word、end_time、begin_time列值import jiebaimport pandas as pdimport redata=pd.read_csv(r'/Users/atsushi/Desktop/python/data_analysis/data/data.csv',encoding='gbk',header=None)#header=None,表示读取数据无表头#原创 2020-07-02 23:53:13 · 613 阅读 · 0 评论