算法
phantom66
这货很懒
展开
-
初识分级聚类算法
首先介绍一下聚类算法。先来一段维基百科上扒下来的介绍:聚类分析(英语:Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等原创 2015-03-26 10:58:52 · 5008 阅读 · 0 评论 -
K-均值聚类
刚刚写了篇分级聚类的,趁着余热,再写一下关于k-均值聚类的。 为了突出k-均值聚类的特点,先黑一下分级聚类。跟k-均值聚类比起来,分级聚类算法有一下缺点:第一,的那个没有额外投入的时候,树形试图是不会真正将数据拆分成不同组的。第二,分级聚类的计算算法计算量相当大。当两个节点合并之后,节点之间的距离需要重新计算,当数据量较大时,计算量急速上升,不利于聚类分析。 接着,开始介绍k-均值聚类原创 2015-03-26 13:56:06 · 1455 阅读 · 0 评论 -
机器学习中用到的一些距离
机器学习算法中常常需要使用数据之间的距离来标识两组数据之间的差异,比如k-近邻算法等。本文将介绍经常使用几种距离的概念、计算公式和应用。 这些距包括: 1. 闵可夫斯基距离 2. 欧几里得距离 3. 曼哈顿距离 4. 切比雪夫距离 5. 马氏距离 6. 余弦相似度 7. 皮尔逊相关系数 8. 汉明距离 9. 杰卡德相似系数 10. 编辑距离 11. DTW 距原创 2015-04-10 13:44:29 · 1991 阅读 · 0 评论 -
数据挖掘知识框架
本文详细介绍数据挖掘知识框架,主要从基础、统计、编程、机器学习、文本挖掘、自然语言处理、可视化、大数据、数据获取、数据清理、数据转换、工具箱等几个方面介绍数据挖掘工程师所需要具备的知识。原创 2015-05-26 15:49:58 · 3931 阅读 · 0 评论 -
随机梯度下降
随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模的问题 。 要想扯清楚它,还得先谈谈梯度下降。 众所周知,每个优化问题会有一个目标函数f(w)f(\boldsymbol{w}), 梯度下降就是采用迭代的策略, 从初始点w1\boldsymbol{w}_1开始, 每次沿着目标函数转载 2016-04-12 21:03:30 · 3226 阅读 · 0 评论 -
非监督版bp网络
简介非监督版bp网络: 梯度下降 + 链式求偏导介绍信息前向传播, 误差反向传播推导忽略delta规则.以包含一层隐藏层的bp网络为例, 设输入层为x⃗ \vec x, 隐藏层为y⃗ \vec y, 输出层为z⃗ \vec z. 其中, 隐藏层中第i个神经元的输出为:yi=sigmoid(∑j=0Vijpj)\begin{align}y_{i} = sigmoid(\sum_{j=0} V_{i原创 2016-04-15 13:38:55 · 1099 阅读 · 0 评论 -
牛顿法,拟牛顿法,梯度下降,随机梯度下降
本文总结了牛顿法, 拟牛顿法,梯度下降和随机梯度下降的概念和计算公式.牛顿法首先考虑一维问题. 对于一个一维的函数,如果这个函数连续可微, 并且导数可以计算, 那么计算这个函数的最优解可以看成求解方程f′(x)=0f'(x)=0的根. 设F(x)=f′(x)F(x)=f'(x), 这个求解过程就变成了求解方程F(x)=0F(x)=0的过程. 使用上述迭代的方法就可以进行计算.迭代的方程为:原创 2016-04-15 22:47:40 · 3677 阅读 · 0 评论 -
从分类,排序,top-k多个方面对推荐算法稳定性的评价
介绍论文名: “classification, ranking, and top-k stability of recommendation algorithms”. 本文讲述比较推荐系统在三种情况下, 推荐稳定性情况. 与常规准确率比较的方式不同, 本文从另一个角度, 即推荐算法稳定性方面进行比较.详细参与比较的推荐算法包括:baseline传统基于用户传统基于物品oneSlopes原创 2016-04-23 13:44:57 · 9161 阅读 · 0 评论