![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 66
隔壁小徐不姓王
这个作者很懒,什么都没留下…
展开
-
LSA算法简单理解
文本挖掘的两个方面应用:(1)分类:a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类)b.将文本按主题归类(比如将所有介绍足球的新闻归到体育类)(2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。文本分类中出现的问题:(1)一词多义比如bank 这原创 2015-11-13 02:25:48 · 9974 阅读 · 2 评论 -
数据挖掘中的离群点检测
离群点的定义:离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点的来源:(1)客体的异常行为导致,如欺诈、入侵、不寻常的实验结果(2)数据测量和收集误差(3)数据变量内在特性引起,如顾客新的购买模式、基因突变等离群点检测的必要性:(1)去除某些异常数据(2)“一个人的噪声也许是其他人的信号”,可以提供新的视角。离群点原创 2015-11-13 01:52:40 · 4191 阅读 · 1 评论