NLP
文章平均质量分 82
@从心
小菜鸟想要把基础打好
展开
-
基于统计的语言模型-n元语法模型
n-gram模型概述1、n-gram模型,也称为N元语法模型,是一种基于统计语言模型的算法2、n元语法模型的算法思想:将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度时N的字节片段序列,每个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。3、该模型基于马尔科夫假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现原创 2021-06-28 22:48:46 · 2389 阅读 · 1 评论 -
自然语言处理——概述
概述文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类通常来讲,文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。被分类的对象有短文本,例如句子、标题、商品评论等等,长文本,如文章等。分类体系一般人应用:垃圾邮件的判定:是否为垃圾邮件根据标题为图文视频打标签:政治、体育、娱乐等根据用户阅读内容建立画像标签:教育、医疗等电商商品评原创 2021-06-25 09:58:32 · 944 阅读 · 0 评论