自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bitcarmanlee的博客

https://github.com/bitcarmanlee/easy-algorithm-interview-and-practice 同步更新,欢迎star

  • 博客(12)
  • 收藏
  • 关注

转载 机器学习算法调优

机器学习算法众多,各种算法又涉及较多参数,本文将简要介绍RF,GBDT等算法的调优经验与步骤。1. BP调优事项 1.BP对feature scaling很敏感,要先scale data。 2.经验来说,L-BFGS在小数据上收敛更快效果更好;Adam在大数据上表现很好;SGD在参数learning rate调整好的基础效果更好。调参 1.首先隐含层个数。一般来说,如果问题线性可分,那么不用隐

2017-08-30 22:32:07 1683

原创 spark读取gz文件与parquet文件

1.spark读取hdfs gz的压缩文件spark1.5以后的版本支持直接读取gz格式的文件,与读取其他纯文本文件没区别。 启动spark shell的交互界面,按读取普通文本文件的方式读取gz文件:sc.textFile("/your/path/*.gz").map{...}以上的代码就能搞定读取gz压缩文件的需求。2.spark读取parquet格式文件spark天然就支持parquet格式

2017-08-30 09:52:55 12193 3

转载 核函数(Kernel Function)与SVM

1.核函数把低维空间映射到高维空间下面这张图位于第一、二象限内。我们关注红色的门,以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据,紫色字母上的点看成是“-”数据,它们的横、纵坐标是两个特征。显然,在这个二维空间内,“+”“-”两类数据不是线性可分的。我们现在考虑核函数K(v1,v2)=<v1,v2>2K(v_1,v_2) = <v_1,v_2>^2,即“内积平方”。

2017-08-26 18:02:17 32970 6

转载 从内容/用户画像到如何做算法研发

原文链接:http://www.jianshu.com/p/d59c3e037cb7?spm=5176.100239.blogcont60117.8.Bd8tGq中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。先是和他聊了下我们现在做内容标签的进展,其实就是在做内容画像。我们一般都是在谈用户画像,其实内容也是要画像的。我之前说,

2017-08-25 15:10:20 4536 2

原创 combineByKey实例详解

我们在做数据统计与分析的时候,经常会遇到K-V结构的数据,所以处理这种K-V结构的数据也是非常常见的需求。在Spark中,除了原生的RDD天然有这种K,V结构,API中也包含有javaPairRdd,PairwiseRdd等对应的接口。而对于KV结构的数据处理就有很多种情况了,例如像数据库的group by操作等。今天我们就来说说在spark中一个常用的操作:combineByKey1.combin

2017-08-25 14:22:34 2144

转载 word2vec数学原理详解

1.单词表示单词需要用计算机可以理解的方式表达后,才可以进行接下来的操作。1.One hot representation程序中编码单词的一个方法是one hot encoding。 有1000个词汇量。排在第一个位置的代表英语中的冠词”a”,那么这个”a”是用[1,0,0,0,0,…],只有第一个位置是1,其余位置都是0的1000维度的向量表示,如下图中的第一列所示。 也就是说, 在one

2017-08-23 19:12:45 2741

转载 隐马尔科夫模型(HMM)讲解

形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。 既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无记忆性。也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。在这里我们仍然使用非常简单的天气模型来做说明。在这个马尔可夫模型中,存在三个状态,Sunny, Rainy, Cloudy,同时图片上标的是各个状

2017-08-22 22:19:11 6395

原创 scala中实现break与continue功能

在别的编码语言中,break与continue两种控制语句是非常常见的用法,一般也有对应的关键字。但是在scala中,没有专门的break与continue关键字。那怎么在循环中实现break与continue功能呢?1.实现break功能package com.xiaomi.leilei.test1import scala.util.control.Breaks._/** * Created

2017-08-11 22:03:42 8868 1

原创 国内各种坐标系以及对应的转化方法

1.地球坐标 (WGS84)1.WGS84是现行的国际标准,例如从iphone中 GPS 设备中取出的数据就是WGS84坐标系。 2.国际地图提供商例如google地图使用的坐标系。2.国家测汇局坐标系或者火星坐标系(GCJ-02)1.中国标准,从国行移动设备中定位获取的坐标数据使用这个坐标系 2.国家规定: 国内出版的各种地图系统(包括电子形式),必须至少采用GCJ-02对地理位置进行首次加密

2017-08-07 17:39:22 22594 2

原创 scala中的apply方法与unapply方法

1.apply方法当scala中类或者对象有一个主要用途的时候,apply方法就是一个很好地语法糖。请看下面一个简单的例子:class Foo(foo: String) {}object Foo { def apply(foo: String) : Foo = { new Foo(foo) }}定义了一个Foo类,并且在这个类中,有一个伴生对象Foo,里面定义了a

2017-08-05 22:17:29 18553 3

原创 二叉树反转java实现

反转二叉树是数据结构中一种经典的操作。如下图所以,反转二叉树就是交换所有节点的左右子树。 具体代码实现如下:package com.xiaomi.tree;import java.util.LinkedList;import java.util.List;/** * Created by wanglei on 17/8/5. */public class Solution { pri

2017-08-05 18:07:06 4148 1

原创 java 不以科学记数法输出double

很多时候我们需要输出double数字的字符串形式。但是java默认的double输出方式为科学记数法,显然不符合我们的要求,以下两种方法都能达到我们的目的。1.使用DecimalFormat类 public static void t1() { Double num1 = 100000000.0; System.out.println(num1); // 1

2017-08-02 10:17:57 6624

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除