![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分类
Lanbocsdn
这个作者很懒,什么都没留下…
展开
-
贝叶斯分类器
原理: 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 贝叶斯公式: 案例: 挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,那么B进入市场时A进行阻挠的概率为20%(此时A为了保持垄断带来的高利润,不计成本地拼命阻挠);如果A属于低阻挠成本类型,那B进入市场时,A原创 2017-10-25 11:24:18 · 561 阅读 · 0 评论 -
用主题建模识别文本模式
主题建模是指识别文本数据隐藏模式的过程,其目的是发现一组文档的隐藏主题结构。# -*- coding: utf-8 -*-"""Created on Thu Oct 12 16:30:39 2017@author: Yxm"""from nltk.tokenize import RegexpTokenizerfrom nltk.stem.snowball import SnowballSte原创 2017-10-14 10:55:16 · 463 阅读 · 0 评论 -
使用Python进行文本分类
注:下面写明的是整体思路,后面附上综合代码1、准备数据:从文本中构建词向量(1)词表到向量的转换函数 **创建一些实验样本 loadDataSet() **创建一个包含在所有文档中出现的不重复词的列表 createVocabList(dataSet) **该函数的输入参数为词汇表及某个文档,输出的是文档向量,向量的每一个元素为1或0,分别表示词汇表中的单词在输入文档中是否出现。 又被称为原创 2017-10-13 21:30:21 · 4244 阅读 · 0 评论 -
TF-IDF
TF-IDF算法分析TF-IDF是一种数值统计,用于反映一个词对于语料中某篇文章的重要性,在信息检索和文本挖掘领域,它经常用于因子加权。主要思想:如果某个词在一片文档中出现的频率高,即TF高;并且在语料库中其他文档中很少出现即IDF高,则认为这个词具有很好的类别区分能力。TF-IDF在实际中主要是将两者相乘,也即TF*IDF,TF为词频(Term Frequency),表示词t在文档d中出现的频率转载 2017-11-24 10:55:06 · 1131 阅读 · 0 评论