自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (7)
  • 收藏
  • 关注

原创 LSA算法简单理解

文本挖掘的两个方面应用:(1)分类:a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类)b.将文本按主题归类(比如将所有介绍足球的新闻归到体育类)(2)检索:用户提出提问式(通常由若干个反映文本主题的词汇组成),然后系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。文本分类中出现的问题:(1)一词多义比如bank 这

2015-11-13 02:25:48 9974 2

原创 数据挖掘中的离群点检测

离群点的定义:离群点是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点的来源:(1)客体的异常行为导致,如欺诈、入侵、不寻常的实验结果(2)数据测量和收集误差(3)数据变量内在特性引起,如顾客新的购买模式、基因突变等离群点检测的必要性:(1)去除某些异常数据(2)“一个人的噪声也许是其他人的信号”,可以提供新的视角。离群点

2015-11-13 01:52:40 4191 1

主成分分析PCA matlab

将给定数据进行降维后,利用K-means进行聚类

2015-12-12

数学之美教材

一本很好的数据挖掘入门教材,很多经典的算法思想

2015-11-16

matlab数据挖掘DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

2015-10-28

哈夫曼编码

问题描述与实验目的: 给定n个字母(或字)在文档中出现的频率序列X=<x1,x2,…,xn>,求出这n个字母的Huffman编码。为方便起见,以下将频率用字母出现的次数(或称权值)w1,w2,…,wn代替。 输入 输入文件中的开始行上有一个整数T,(0<T<=20),表示有T组测试数据。 接下来是T行测试数据的描述,每组测试数据有2行。测试数据的第1行上是一个正整数n,(n<50),表示序列的长度。第2行是n个字母出现的权值序列w1,w2,…,wn,它们均为正整数,相邻的两个整数之间用空格隔开。 输入直到文件结束。 输出 对输入中的每组有n个权值的数据,应输出n+1行:先在一行上输出“Case #”,其中“#”是测试数据的组号(从1开始);接下来输出n行,其第1行到第n行上依次输出第i个字母出现的次数和相应的Huffman编码,格式如下: wi Huffman编码。 每组测试数据对应的输出最后结束时加一个空行,以便区分。 为保证Huffman编码的唯一性,在构造Huffman树的过程中,我们约定: 1.左儿子标记为0,右儿子标记为1; 2.左儿子的权值>=右儿子的权值; 3.相同权值w的两个字母x、y,先输入权值的字母x的Huffman编码长度不超过后输入权值的字母y的Huffman编码长度。 4.合并两个节点后新的权值应从右到左搜索、插入到相应的位置。

2014-04-20

实验银币问题

问题描述与实验目的: 在n个银币中有一个是不合格的,不合格的银币比合格银币要轻。 现用天平秤银币,找出不合格的银币,且在最坏情况下秤银币的次数最少。 输入 输入有若干行。每行上有一个整数n,表示银币个数,n<100000。 当n=0,表示输入结束。 输出 对输入大于0的整数n,输出2行。第1行输出n的值,第2行上先输出“Times:”,接着输出在最坏情况下秤n个银币的最少次数。 当n=0时,这种情况你不必处理和结果输出。

2014-04-20

最长公共子序列

输入 输入文件中的第1行是一个正整数T,(0<T<=10),表示有T组测试数据。接下来是每组测试数据的描述,每组测试数据有3行。 测试数据的第1行有2个正整数m、n,中间用一个空格隔开,(0<m,n<50);第2、3行是长度分别为m、n的2个序列X和Y,每个序列的元素间用一个空格隔开。序列中每个元素由字母、数字等构成。 输入直到文件结束。 输出 对输入中的每组测试数据,输出2行。先在一行上输出“Case #”,其中“#”是测试数据的组号(从1开始),再在第2行上输出这2个序列X、Y的最长公共子序列Z的长度及子序列Z(至少一个)。

2014-04-20

矩阵连乘问题

给定n个矩阵A1,A2,…,An,其中,Ai与Aj+1是可乘的,i=1,2,…,n-l。 你的任务是要确定矩阵连乘的运算次序,使计算这n个矩阵的连乘积A1A2…An时总的元素乘法次数达到最少。

2014-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除