自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

上下求索

专注自然语言处理、数据挖掘、信息检索、云计算及行业咨询

  • 博客(10)
  • 收藏
  • 关注

原创 编辑距离 、最长公共子串、最长公共子序列以及最长递增子序列

0 、前言动态规划就是把一个大的问题拆分成几个类似的子问题,通过求解子问题来获得最终的结果,常采用递归的方法。由于递归的方法中会重复地计算相同的子问题,使得效率较低。为减少重复计算相同子问题的时间,引入一个数组,把所有子问题的解存放于该子数组,这是动态规划采用的基本方法。 编辑距离 、最长公共子串、最长公共子序列以及最长递增子序列都是采用动态规划方法进行求解的,而且他们之间有相同和不同之处

2015-03-31 19:11:00 873

转载 普利策奖《哥德尔、埃舍尔、巴赫——集异璧之大成》

普利策奖《哥德尔、埃舍尔、巴赫——集异璧之大成》                        书名:集异璧之大成(Godel,Escher,Bach——an Eternal Golden Braid)作者:侯世达(Douglas R. Hofstadter)出版社:商务印书馆出版日期:1996年8月页数:1053面简而言之,一本当代奇书。

2015-03-31 14:32:54 2837

转载 Python学习之set()集合

python的set和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算。sets 支持 x in set, len(set),和 for x in set。作为一个无序的集合,sets不记录元素位置或者

2015-03-30 17:48:36 468

转载 聚类算法实践经验汇总

所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是一种朴素的人工聚类。如此,我们就可以将世界上纷繁复杂的信息,简化为少数方便人们理解的类别,可以说是人类认知这个世界的最基本方式之一。      在数据分析的术语之中,聚类和分类是两种技术。分类是指我们已经知

2015-03-11 11:09:40 1054

原创 层次聚类--凝聚(自底向上)和分裂(自顶向下)

1、概念层次聚类就是对数据集采用某种方法逐层地进行分解或者汇聚,直到分出的最后一层的所有的类别数据满足要求为止。所以按照分解或者汇聚的原理的不同,层次聚类可以分为凝聚(agglomerative)和分裂(divisive)两种方法。K-means和k-medias都是划分的聚类算法,而层次聚类就是要把数据自顶向下分裂成或者自底向上合并成一棵树。层次聚类涉及到嵌套聚类,嵌套聚类是指一个聚类中

2015-03-10 15:26:31 34382 3

转载 【scikit-learn】Python分类实例

引入一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discrimi

2015-03-04 19:29:54 4299 1

原创 卷积

1.定义卷积是分析数学中一种重要的运算,对于在空间R上的f(x),g(x)是两个可积函数,作积分:可以证明,关于几乎所有的实数x,上述积分是存在的。这样,随着x的不同取值,这个积分就定义了一个新函数h(x),称为函数f与g的卷积,记为h(x)=(f*g)(x)。上述的定义是假设f(x)和g(x)在空间R上是连续的,如果它们为离散的,即卷积的变量x(n)和h(n)是序

2015-03-04 10:57:11 841

转载 谱聚类算法原理介绍

1. 谱聚类给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽可能高(这意味着组内相似度要尽

2015-03-02 17:36:57 1415

转载 拉普拉斯矩阵

1 矩阵基础1.0 理解矩阵    如果对矩阵的概念已经模糊,推荐国内一人写的《理解矩阵by孟岩》系列,其中,抛出了很多有趣的观点,我之前在阅读的过程中做了些笔记,如下:“1、简而言之:矩阵是线性空间里的变换的描述,相似矩阵则是对同一个线性变换的不同描述。那,何谓空间?本质而言,“空间是容纳运动的一个对象集合,而变换则规定了对应空间的运动”by孟岩。在线性空间选定基

2015-03-02 16:44:45 17344 1

转载 谱聚类算法(Spectral Clustering)

谱聚类算法(Spectral Clustering)谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以

2015-03-02 15:17:13 848

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除