![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 86
卡布奇诺小勇
这个作者很懒,什么都没留下…
展开
-
数据挖掘之文本分类的数据预处理
文本分类的数据预处理在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。1. 文档切分文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这原创 2013-10-05 15:44:52 · 4190 阅读 · 0 评论 -
数据挖掘之分类
分类(classifier)——监督学习1. 类型与分类过程类型:l 归类:针对离散数据的分类;l 预测:针对连续数据的分类,其也叫回归分析;训练集:有数据库元组和与它们相关联的类标号组成;分类步骤:1. 构造模型,利用训练数据集训练分类器;2. 利用建好的分类器模型对测试数据进行分类;2. 分类方法原创 2013-10-07 19:58:48 · 1512 阅读 · 0 评论