2017年03月_知之可否

05月 04月 03月 02月 01月

转载谱聚类算法详解

转自 http://blog.csdn.net/jteng/article/details/49590069 谱聚类（Spectral Clustering）算法简单易行，其聚类性能优于传统的K-means算法。谱聚类将数据的划分转化为对图的分割，是一种基于图论的聚类方法，其直观理解为根据图内点的相似度将图分为多个子图，使子图内部的点相似度最高，子图之间点的相似度最低。

2017-03-20 10:12:54 2140

转载 Java Thread(线程)案例详解sleep和wait的区别

转自 http://www.cnblogs.com/DreamSea/archive/2012/01/16/2263844.htmlF区别sleep（）方法　　sleep()使当前线程进入停滞状态（阻塞当前线程），让出CUP的使用、目的是不让当前线程独自霸占该进程所获的CPU资源，以留一定时间给其他线程执行的机会;　　 sleep()是

2017-03-16 10:36:40 609

转载 Java中Synchronized的用法

转自 http://blog.csdn.net/luoweifu/article/details/46613015#commentssynchronized是Java中的关键字，是一种同步锁。它修饰的对象有以下几种： 1. 修饰一个代码块，被修饰的代码块称为同步语句块，其作用的范围是大括号{}括起来的代码，作用的对象是调用这个代码块的对象； 2. 修饰一个方法，被修饰的方

2017-03-16 10:07:56 414

转载 MapReduce实现矩阵乘法

转自 http://blog.csdn.net/liuxinghao/article/details/39958957简单回顾一下矩阵乘法：矩阵乘法要求左矩阵的列数与右矩阵的行数相等，m×n的矩阵A，与n×p的矩阵B相乘，结果为m×p的矩阵C。详细内容可以查看：矩阵乘法。为了方便描述,先进行假设：矩阵A的行数为m，列数为n，aij为矩阵A第i行

2017-03-15 20:42:05 1699

转载 HashMap Hashtable区别

http://blog.csdn.net/java2000_net/archive/2008/06/05/2512510.aspx 我们先看2个类的定义[java] view plain copypublic class Hashtable extends Dictionary implements Map,

2017-03-15 09:58:57 475

转载「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等

转自 http://www.ptbird.cn/mapreduce-tempreture.html一、需求说明1、数据文件说明hdfs中有一些存储温度的数据文件，以文本形式存储，示例如下：日期和时间中间是空格，为整体，表示检测站点监测的时间，后面是检测的温度，中间通过制表符 \t 相隔。2、需求计算在1949-1955年中,

2017-03-14 11:03:15 3818

转载 Hive中 Oder by 、sort by、distribute by 和 cluster by

参见 https://www.iteblog.com/archives/1534.html

2017-03-14 09:41:20 498

转载 XGBoost浅入浅出

转自 http://wepon.me/2016/05/07/XGBoost%E6%B5%85%E5%85%A5%E6%B5%85%E5%87%BA/XGBoost风靡Kaggle、天池、DataCastle、Kesci等国内外数据竞赛平台，是比赛夺冠的必备大杀器。我在之前参加过的一些比赛中，着实领略了其威力，也取得不少好成绩。如果把数据竞赛比作金庸笔下的武林，那么XGBoost

2017-03-13 22:36:56 3617

转载 Hive group by distinct性能调优

转自 http://sjq597.github.io/2016/04/24/Hive-group-by-distinct%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98/Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order

2017-03-13 17:26:03 2145

转载梯度下降法的三种形式BGD、SGD以及MBGD

转自 http://www.cnblogs.com/maybe2030/p/5089753.html#top阅读目录1. 批量梯度下降法BGD2. 随机梯度下降法SGD3. 小批量梯度下降法MBGD4. 总结　　在应用机器学习算法时，我们通常采用梯度下降法来对采用的算法进行训练。其实，常用的梯度下降法还具体包含有三种不同的形式，它们也各自有着不同的优缺点

2017-03-13 16:31:49 609

转载 LR与SVM的异同

转自 http://www.cnblogs.com/zhizhan/p/5038747.html在大大小小的面试过程中，多次被问及这个问题：“请说一下逻辑回归（LR）和支持向量机（SVM）之间的相同点和不同点”。第一次被问到这个问题的时候，含含糊糊地说了一些，大多不在点子上，后来被问得多了，慢慢也就理解得更清楚了，所以现在整理一下，希望对以后面试机器学习方向的同学有所帮助（至少

2017-03-13 16:12:36 1101

转载 svm常用核函数

转自 http://blog.csdn.net/batuwuhanpei/article/details/52354822SVM核函数的选择对于其性能的表现有至关重要的作用，尤其是针对那些线性不可分的数据，因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道，其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的，我们定义这种映射为ϕ

2017-03-12 12:22:02 1449

转载 SVM多类分类方法

http://blog.sina.com.cn/s/blog_5eef0840010147pa.htmlSVM多类分类方法的实现根据其指导思想大致有两种：（1）将多类问题分解为一系列SVM可直接求解的两类问题，基于这一系列SVM求解结果得出最终判别结果。(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变，使得它能同时计算出所有多类分类决策函数，从而“一次性”

2017-03-12 11:46:00 729

转载为什么一些机器学习模型需要对数据进行归一化？

http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用，如排序（参见：排序学习实践）、推荐、反作弊、定位（参见：基于朴素贝叶斯的定位算法）等。一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就是对特征数据进行归一化，为什么要归一化呢？很多同学并未搞清楚，维基百科给出的解释：1）归一化后加快了梯度下

2017-03-12 11:36:01 1093

转载 svm 问题整理

1、为什么要选择最大间隔分类器，请从数学角度上说明？　　　　答：几何间隔与样本的误分次数间存在关系：　　　　　　　　其中的分母就是样本到分类间隔距离，分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗？　　　　答：会，超平面会靠近样本少的类别。因为使用的是软间隔分类，而如果对所有类别都是使用同样的惩罚系数，　　　　　　　　则由于

2017-03-11 22:41:21 3617

转载数据库范式那些事

http://www.cnblogs.com/CareySon/archive/2010/02/16/1668803.html简介数据库范式在数据库设计中的地位一直很暧昧，教科书中对于数据库范式倒是都给出了学术性的定义，但实际应用中范式的应用却不甚乐观，这篇文章会用简单的语言和一个简单的数据库DEMO将一个不符合范式的数据库一步步从第一范式实现到第四范式。

2017-03-10 15:30:31 274

转载 LDA数学原理及优缺点

线性判别分析（Linear Discriminant Analysis，LDA），也称线性判别法，是由Fisher于1936年提出。基本思想和原理：通常是指在输入变量上构造线性判别函数的方法，但是它也可以寻求一种变换，使得在某种意义下类间分离性最大，类内分离性最小或相异性最小。原理：将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，

2017-03-09 17:09:06 12741 2

转载 SpringMVC工作原理

转自 http://blog.csdn.net/liang5630/article/details/43733733#commentsSpringMVC框架介绍 1) Spring MVC属于SpringFrameWork的后续产品，已经融合在Spring Web Flow里面。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Sprin

2017-03-09 15:29:29 407

转载 GBDT（MART）迭代决策树入门教程 | 简介

转自 http://blog.csdn.net/w28971023/article/details/8240756#comments在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regre

2017-03-07 20:25:31 314

转载 [Machine Learning & Algorithm] 随机森林（Random Forest）

转自 http://www.cnblogs.com/maybe2030/p/4585705.html#top阅读目录1 什么是随机森林？2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率（oob error）6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部

2017-03-07 19:30:46 483

vs2010适用的破解版vax 编程辅助工具，已验证在win7 和winxp系统均可使用（无论是64bit还是32bit）。注意用破解的DLL覆盖原dll，路径为：（1）如果是Windows7系统： C:/Users/用户名/AppData/Local/Microsoft/VisualStudio/10.0/Extensions/Whole Tomato Software/Visual Assist X/10.7.1901.0 （2）如果是XP系统: C:/Documents and Settings/用户名/Local Settings/Application Data/Microsoft/VisualStudio /10.0/Extensions/Whole Tomato Software/Visual Assist X/10.7.1901.0

2015-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

知之可否