自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 c++面试题:判断数组是否存在重复元素

Problem:given an array in length of N, in which theelements are integers distributed from 1 to N, please judge whether there isduplication quickly.即一个长度为N的数组,元素取值范围为1到N,要求快速判断是否存在重复元素。 解决方法:

2014-05-22 23:09:38 10099 1

原创 Spark Softmax

本篇实现了spark上softmax算法,算法原理参考:http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression训练样本采用稀疏形势表达,因此实现了2个类SparserVector和DenseMatrix分别表示稀疏向量和密集矩阵。完整代码没有贴出,可以在这里下载主要代码:package s

2013-12-17 22:15:01 2119 4

原创 Spark LogisticRegression

由于spark中默认支持原生矩阵格式的输入,但实际中我们经常碰到的是稀疏的数据集,因此这里我实现了一个与libsvm输入格式相同的logistic回归,刚接触scala和spark,代码写的还不够简洁,还请各位指点。代码如下:package classifyimport java.util.Randomimport scala.collection.mutable.Hash

2013-12-15 19:57:19 1584

原创 scala学习资料

本篇会列举一些scala的学习资料,后续会不断更新1. twitter公司发布的scala中文教程:http://twitter.github.io/scala_school/zh_cn/index.html

2013-12-11 10:31:18 1072

转载 【stanford】梯度、梯度下降,随机梯度下降

一、梯度gradienthttp://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6在标量场f中的一点处存在一个矢量G,该矢量方向为f在该点处变化率最大的方向,其模也等于这个最大变化率的数值,则矢量G称为标量场f的梯度。在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变

2013-12-02 17:11:45 753

原创 一些单机处理大数据开源工具

1. LibFM项目主页:http://www.libfm.org/2. Svdfeature项目主页:http://apex.sjtu.edu.cn/apex_wiki/svdfeature3. Libsvm和Liblinearlibsvm项目主页:http://www.csie.ntu.edu.tw/~cjlin/libsvm

2013-12-01 22:28:11 1252

原创 weka分类器-C4.5决策树

1.     算法概述 C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,是相对于ID3算法的改进,主要改进点有:1.      用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2.      在树构造过程中进行剪枝。3.      对非离散数据也能处理。

2013-03-09 22:05:27 4888

原创 weka分类器-NaiveBayes

Weka中实现一个分类器比较重要的有一下3个方法:buildClassifier(Instances instances)double[] distributionForInstance(Instanceinstance)double classifyInstance(Instance instance) throwsException;其中后2个只要实现其中之一即可,因此我们在分

2013-03-08 17:04:35 6592

原创 weka源代码分析-总述

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka是一个开源的软件,阅读并理解其源代码可以帮助我们更好的理解算法的细节,同时也能够扩展其算法以获得更广泛的应用。但是现在公开的资料中对weka源代码分析的内容很少,所以本博客推出weka源代码分析系列,将针对weka中实现各种

2013-03-07 21:32:15 2025

spark机器学习算法实现

基于spark实现了logisticregression以及softmax算法,仅供参考

2013-12-17

scala学习资料

scala学习资料:包括Programming in Scala,SCALA程序设计,ScalaTutorial

2013-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除