知之可否

Be yourself; everyone else is already taken.​

谱聚类算法详解

转自  http://blog.csdn.net/jteng/article/details/49590069  谱聚类(Spectral Clustering)算法简单易行,其聚类性能优于传统的K-means算法。谱聚类将数据的划分转化为对图的分割,是一种基于图论的聚类方法...

2017-03-20 10:12:54

阅读数:493

评论数:0

Java Thread(线程)案例详解sleep和wait的区别

转自  http://www.cnblogs.com/DreamSea/archive/2012/01/16/2263844.html F区别 sleep()方法   sleep()使当前线程进入停滞状态(阻塞当前线程),让出CUP的使用、目的是不...

2017-03-16 10:36:40

阅读数:373

评论数:0

Java中Synchronized的用法

转自  http://blog.csdn.net/luoweifu/article/details/46613015#comments synchronized是Java中的关键字,是一种同步锁。它修饰的对象有以下几种:  1. 修饰一个代码块,被修饰的代码块称为同步语句块,其作用...

2017-03-16 10:07:56

阅读数:202

评论数:0

MapReduce实现矩阵乘法

转自  http://blog.csdn.net/liuxinghao/article/details/39958957 简单回顾一下矩阵乘法: 矩阵乘法要求左矩阵的列数与右矩阵的行数相等,m×n的矩阵A,与n×p的矩阵B相乘,结果为m×p的矩阵C。详细内容可以查看...

2017-03-15 20:42:05

阅读数:443

评论数:0

HashMap Hashtable区别

http://blog.csdn.net/java2000_net/archive/2008/06/05/2512510.aspx    我们先看2个类的定义 [java] view plain copy public class Hashtab...

2017-03-15 09:58:57

阅读数:260

评论数:0

「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等

转自  http://www.ptbird.cn/mapreduce-tempreture.html 一、需求说明 1、数据文件说明 hdfs中有一些存储温度的数据文件,以文本形式存储,示例如下: 日期和时间中间是空格,为整体,表示检测站点监测的时间,后面是...

2017-03-14 11:03:15

阅读数:1703

评论数:0

Hive中 Oder by 、sort by、distribute by 和 cluster by

参见 https://www.iteblog.com/archives/1534.html

2017-03-14 09:41:20

阅读数:232

评论数:0

XGBoost浅入浅出

转自 http://wepon.me/2016/05/07/XGBoost%E6%B5%85%E5%85%A5%E6%B5%85%E5%87%BA/ XGBoost风靡Kaggle、天池、DataCastle、Kesci等国内外数据竞赛平台,是比赛夺冠的必备大杀器。我在之前参加过...

2017-03-13 22:36:56

阅读数:773

评论数:0

Hive group by distinct性能调优

转自 http://sjq597.github.io/2016/04/24/Hive-group-by-distinct%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98/ Hive去重统计 相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重...

2017-03-13 17:26:03

阅读数:526

评论数:0

梯度下降法的三种形式BGD、SGD以及MBGD

转自 http://www.cnblogs.com/maybe2030/p/5089753.html#top 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结   在应用机器学习算法时,我们通常采用梯度下降...

2017-03-13 16:31:49

阅读数:331

评论数:0

LR与SVM的异同

转自 http://www.cnblogs.com/zhizhan/p/5038747.html 在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多...

2017-03-13 16:12:36

阅读数:536

评论数:0

svm常用核函数

转自 http://blog.csdn.net/batuwuhanpei/article/details/52354822 SVM核函数的选择对于其性能的表现有至关重要的作用,尤其是针对那些线性不可分的数据,因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道,其目的是希望通过将输入...

2017-03-12 12:22:02

阅读数:662

评论数:0

SVM多类分类方法

http://blog.sina.com.cn/s/blog_5eef0840010147pa.html SVM多类分类方法的实现根据其指导思想大致有两种: (1)将多类问题分解为一系列SVM可直接求解的两类问题,基于这一系列SVM求解结果得出最终判别结果。 (2)通过对前面...

2017-03-12 11:46:00

阅读数:272

评论数:0

为什么一些机器学习模型需要对数据进行归一化?

http://www.cnblogs.com/LBSer/p/4440590.html     机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对...

2017-03-12 11:36:01

阅读数:575

评论数:0

svm 问题整理

1、为什么要选择最大间隔分类器,请从数学角度上说明?     答:几何间隔与样本的误分次数间存在关系:          其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值 2、样本失衡会对SVM的结果产生影响吗?     答:会,超平面会靠近样本少的类别。因为使用的是...

2017-03-11 22:41:21

阅读数:1076

评论数:0

数据库范式那些事

http://www.cnblogs.com/CareySon/archive/2010/02/16/1668803.html 简介       数据库范式在数据库设计中的地位一直很暧昧,教科书中对于数据库范式倒是都给出了学术性的定义,但实际应用中范式的应用却不甚乐观,这篇...

2017-03-10 15:30:31

阅读数:126

评论数:0

LDA数学原理及优缺点

线性判别分析(Linear Discriminant Analysis,LDA),也称线性判别法,是由Fisher于1936年提出。 基本思想和原理: 通常是指在输入变量上构造线性判别函数的方法,但是它也可以寻求一种变换,使得在某种意义下类间分离性最大,类内分离性最小或相异性最小。 ...

2017-03-09 17:09:06

阅读数:910

评论数:0

SpringMVC工作原理

转自 http://blog.csdn.net/liang5630/article/details/43733733#comments SpringMVC框架介绍     1) Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里...

2017-03-09 15:29:29

阅读数:288

评论数:0

GBDT(MART) 迭代决策树入门教程 | 简介

转自 http://blog.csdn.net/w28971023/article/details/8240756#comments 在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:                GBDT(Gradient Boos...

2017-03-07 20:25:31

阅读数:197

评论数:0

[Machine Learning & Algorithm] 随机森林(Random Forest)

转自 http://www.cnblogs.com/maybe2030/p/4585705.html#top 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机...

2017-03-07 19:30:46

阅读数:194

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭