自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 机器学习中几种常见优化方法总结

1、梯度下降法假设f(x)是具有一阶连续偏导数的函数。要求解的无约束最优化问题是:梯度下降法是一种迭代算法,选取适当的初值x(0),不断迭代更新x的值,进行目标函数的极小化,直到收敛。由于负梯度方向是使得函数值下降最快的方向,所以在迭代的每一步,以负梯度方向更新x的值,从而达到减少函数值的目的。f(x)具有一阶连续偏导数,若第k次迭代值为x(k),则可将f(x)在x(k)附近进行一阶泰

2016-07-12 17:22:33 3372

转载 Kaggle 手写识别题

原文链接:http://blog.csdn.net/wiking__acm/article/details/43491611 手写体数字的识别,一个比较简单的问题。主要是特征太多,所以用PCA降维处理,然后用knn就可以得到一个准确率相当不错的结果了。ipython notebook 下根据测试数据生成数字图案的代码:%pylab import pandas as pd img = pd.r

2016-07-08 11:32:36 449

转载 机器学习的学习路径

一、为什么是列出一堆可以探索的书,而不是要去寻找一条路 机器学习的研究和应用已经有很长的时间了。随着人类的发展,数据和计算能力都在不断的增加,因此机器学习这几年变得异常火热,很多公司开始部署相关的部门。 常常在各种途径看到和多人问问题,有没有什么好的入门书籍或者资料;也看到一旦有前辈推荐一些好的学习材料的时候,很多人都在积极的下载和学习;机器学习相关的讲座也非常的火热。从2013年年初,我也开始

2016-07-05 15:58:05 4033

原创 spark 的相关配置

export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoopSPARK_EXECUTOR_INSTANCES=2SPARK_EXECUTOR_CORES=1SPARK_EXECUTOR_MEMORY=400MSPARK_DRIVER_MEMORY=400MSP

2016-07-05 15:54:17 464

转载 quartz 时间配置规则

格式: [秒] [分] [小时] [日] [月] [周] [年]序号 说明 是否必填 允许填写的值 允许的通配符 1 秒 是 0-59 , - * / 2 分 是 0-59, - * / 3 小时 是 0-23 , - * / 4 日 是 1-31 , - * ? / L W 5 月 是 1-

2016-07-05 15:51:47 299

转载 Linux 查看CPU信息的命令

㈠ 概念 ① 物理CPU 实际Server中插槽上的CPU个数 物理cpu数量,可以数不重复的 physical id 有几个 ② 逻辑CPU Linux用户对 /proc/cpuinfo 这个文件肯定不陌生. 它是用来存储cpu硬件信息的

2016-07-05 15:47:39 505

转载 如何成为一名数据科学家

摘自知乎一位大牛的推荐 作者:谢科 链接:https://www.zhihu.com/question/21592677/answer/24663656 来源:知乎“Data Science = statistics who uses python and lives in San Francisco”恰好我马上启程到Twitter的data science team,而且恰巧懂一点点统计和住

2016-07-05 10:55:50 1233

原创 机器学习最佳入门学习资源

原文链接:http://suanfazu.com/t/ji-qi-xue-xi-zui-jia-ru-men-xue-xi-zi-yuan/210 如果你是一个真正的初学者,并且乐意于开始了解机器学习领域的相关知识,你可以在我的文章中找到有用的资料。我的建议是,从中挑出一件来,一本书或者是一个库,反复阅读或者认真学习所有的相关教程。挑出一个并且坚持学习,直到你完全掌握,再重新选择一个,重复这个学习

2016-07-05 10:31:30 2505

转载 Spark Shuffle实现 (转载)

原文链接:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展

2016-07-05 09:44:56 374

原创 感知器的scala实现

其实感知器学习算法,就是利用第一节介绍的单层感知器。首先利用给的正确数据,计算得到输出值,将输出值和正确的值相比,由此来调整每一个输出端上的权值。 公式便是用来调整权值,首先 是一个“学习参数”,一般我将它设置成小于1的正数。T便是训练数据中的正确结果, 便是第i个输入端的输入值,便是第i个输入端上面的权值。 关于感知器的scala代码实现如下:object Perceptron{ va

2016-07-04 20:41:40 475

原创 感知器的scala实现

其实感知器学习算法,就是利用第一节介绍的单层感知器。首先利用给的正确数据,计算得到输出值,将输出值和正确的值相比,由此来调整每一个输出端上的权值。 公式便是用来调整权值,首先 是一个“学习参数”,一般我将它设置成小于1的正数。T便是训练数据中的正确结果, 便是第i个输入端的输入值,便是第i个输入端上面的权值。 关于感知器的scala代码实现如下:object Perceptron{ va

2016-07-04 20:41:31 457

原创 梯度下降算法、随机梯度下降算法scala实现

梯度下降和随机梯度下降是机器学习中最常用的算法之一。关于其具体的原理这里不多做介绍,网络上可以很方便的找到。例如可以参考博客:http://blog.csdn.net/woxincd/article/details/7040944 scala代码实现如下:object SGD{ /*X:输入变量 y:输入结果 learnRate:学习步长

2016-07-04 20:33:14 795

原创 雅克比矩阵的scala实现

在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇:伴随该曲线的一个代数群, 曲线可以嵌入其中。 矩阵的特征值和特征向量是线性代数以及矩阵论中非常重要的一个概念。在遥感领域也是经常用到,比如多光谱以及高光谱图像的主成分分析要求解波段间协方差矩阵或者相关系数矩阵的特征值和特征向量。 根据普通线性代数中的

2016-07-04 20:25:27 855

原创 白话scala系列四 scala矩阵运算和操作

在做数据挖掘和机器学习项目的时候发现矩阵运算需要经常用到,虽然Java中提供了Jama包能实现大部分需求,但是无法满足定制化需求。我们写spark程序的时候一般使用scala,所以用scala实现了一些矩阵的类。代码实现了矩阵加、乘、转置、求协方差、求平均等。后续会继续扩充,用以实现特许矩阵操作需求。class Matrix(private val data:Array[Double],privat

2016-07-04 17:34:49 8576 1

原创 spark 中如何划分stage?

1.从hdfs中读取文件后,创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。以下面一个按 A-Z 首字母分类,查找相同首字母下不同姓名总个数的例子来看

2016-07-04 16:06:39 12693

原创 白话scala系列三 Scala编程难点解析

一直想找一篇关于scala和其他语言相比难点分析的文章,今天终于找到一篇,虽然有点啰嗦,但仔细阅读后还是会有所体会。 原文链接:http://www.blogjava.net/hechi158/archive/2012/02/28/370902.html Scala难在哪里?下面是我能想出的最主要的几条: ◆ Scala想要的东西太多。 你可以拿Scala像Java那样编程。这是一种福气,也是

2016-07-04 10:01:58 1319

原创 白话scala系列二 scala入门的几个基本知识

上一回,大概介绍了一下为什么要学scala和要在哪里去写代码,这一回,我们来了解一下scala入门的几个基本知识。从变量定义说起。scala有两种变量,val和var。val就像Java的final,一旦初始化了就不能再改变它的值了。var则可以在变量声明周期内多次赋值。 基本的类型包括哪些呢,总体来说包括Byte、Short、Int、Long和Char这些整数类型,加上Float、Double,

2016-07-02 15:48:05 660

原创 sql执行顺序

sql执行顺序SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在SQL语言中,第一个被处理的子句是FROM子句,尽管SELECT语句第一个出现,但是几乎总是最后被处理。每个步骤都会产生一个虚拟表,该虚拟表被用作下一个步骤的输入。这些虚拟表对调用者(客户端应用程序或者外部查询)不可用。只是最后一步生成的表才会返回 给调用者。如果没有在查询中指定某一

2016-07-02 13:41:26 404

原创 Ninety-Nine Scala Problems 不错的scala入门练习题

不错的scala入门练习题。 原站网址:http://wiki.summercode.com/s_99_ninety_nine_scala_problems P01 (*) Find the last element of a list. Example: scala> last(List(1, 1, 2, 3, 5, 8)) res0: Int = 8import scala.col

2016-07-02 10:55:10 1042

原创 大数据分析经验总结

数据决定分析结果的上限,而不同算法只是决定了逼近上限的程度

2016-07-01 17:28:13 2161

原创 超越“大数据”:运用商业分析和数据科学为企业实现商业价值 (培训笔记)

内容简介:商业模式和大数据分析关联 硅谷顶级公司大数据BI商业价值实际案例 大数据团队建立和管理经验 总结及大数据行业前瞻 海外讲师:李玥 高级数据分析专家 数据科学业界领军人物 曾担任多家初创公司的数据顾问,例如Coursera

2016-07-01 15:31:03 1858

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除