bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

n的阶乘末尾含0的个数

本博主曾被问过这样一个问题:求n的阶乘中末尾含有多少个0。例如n=10,n!=3628800,那么n!末尾有两个0。直接计算n!的值显然不合适,因为n!数值太大,很容易溢出。而且这种无脑的计算方式,显然不适合面试的时候装nbility拿高薪offer。1解法一:分解质因数本博主当时被问这个问题的时...

2016-05-30 17:08:12

阅读数 1631

评论数 1

反转二叉树

反转二叉树,因为Max Howell(Homebrew,mac版的apt-get作者 )出名: Google: 90% of our engineers use the software you wrote (Homebrew), but you can’t invert a binary tr...

2016-05-30 16:01:30

阅读数 3815

评论数 1

用java数组实现栈

栈是一种常见的数据结构。如果用一句话来概括栈的特点,估计大部分同学都能脱口而出:后进先出,即先进来的元素保存在栈的最底部,新来的元素则在栈顶堆积,直到栈满为止;而取元素的时候,只能从栈顶取,直到栈空为止。整个过程,与摞书的过程很类似:放书的时候都是摞在最上面,取书的时候也是从最上面开始取。要想取出...

2016-05-30 13:06:30

阅读数 4225

评论数 0

python sort sorted 排序详解

python中,list类型内置了sort()方法用于排序。当然,python还有内置的全局sorted()方法,用于可迭代序列的排序。这两个方法大部分的用法是相同的,最大的不同在于,sort()方法不会生成一个新的list,而是在原有的list上进行修改;sorted()方法则是生成一个新的可迭...

2016-05-30 12:04:26

阅读数 3627

评论数 0

二叉树 先序遍历 中序遍历 后续遍历 java实现

二叉树是一种非常重要的数据结构,也是平时面试的时候面试官喜欢出的问题之一。关于二叉树的概念,就不做过多解释,估计各种课本网络上各种资料都充斥着关于二叉树的原理介绍。我们是实战派,原理不在啰嗦,重点看代码,看看怎样实现一棵二叉树,并分别用实现先序遍历,中序遍历以及后续遍历。package leile...

2016-05-28 21:22:24

阅读数 2628

评论数 0

最大连续子序列和

求最大连续子序列的和是一个很经典很古老的面试题了,本博主记得在刚毕业找工作面试那会也遇到过同款问题。今儿突然想起来,正好快到毕业季,又该是苦逼的应届生们各种面试的时候到了,就给写了一些小代码解决这个问题。也希望各位找工作的同志们都拿到心目中理想的offer,从此以后,战胜高富帅,赢取白富美,走上人...

2016-05-28 18:02:09

阅读数 4974

评论数 2

搞机器学习需要哪些技能

1. 前言本来这篇标题我想的是算法工程师的技能,但是我觉得要是加上机器学习在标题上,估计点的人会多一点,所以标题成这样了,呵呵,而且被搜索引擎收录的时候多了一个时下的热门词,估计曝光也会更多点。不过放心,文章没有偏题,我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题,这不是一篇机...

2016-05-27 22:53:06

阅读数 10579

评论数 3

hadoop SequenceFile

1 SequenceFile的理解1)SequenceFile是Hadoop用来存储二进制形式的对而设计的一种平面文件(Flat File); (2)可以把SequenceFile当做一个容器,把所有文件打包到SequenceFile类中可以高效的对小文件进行存储和处理; (3)Sequenc...

2016-05-25 11:01:05

阅读数 550

评论数 0

hadoop 压缩工具 比较

hadoop里支持许多压缩算法。压缩的好处主要有两点:1.减少了文件占用的存储空间,原来上T的文件可能压缩完以后只需要两三百G的空间即可;2.文件的体积小了以后,数据传输的速度自然就快了。在现在的大数据环境下,这两点显得更加重要。所以现在hdfs文件系统上存的文件,如果数据量大到一定程度,都需要经...

2016-05-25 10:12:26

阅读数 1857

评论数 0

社交网络中的共同好友计算(一度好友与二度好友)

社交网络中经常存在求共同好友的需求,比如最常见的求一度好友与二度好友,如上图所示。package bit.edu.cn;import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java....

2016-05-24 16:46:36

阅读数 7092

评论数 0

信息熵 条件熵 信息增益 信息增益比 GINI系数

在信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下,权当笔记。1.信息熵熵是神马东东?信息论的开山祖师爷Shannon(中文翻译过来一般叫香农,总觉得很多文字经过翻译就不对劲,就跟人家老外翻译贱人就是矫情...

2016-05-24 10:30:55

阅读数 17906

评论数 8

Hbase rowkey 设计原则

HBase是三维有序存储的,三维指的是:RowKey(行健)、column key(columnFamily和qualifier)、TimeStamp(时间戳),通过这三个维度我们可以对HBase中的数据进行快速定位。下面我们主要来讨论RowKey的设计原则:HBase中RowKey可以唯一标识一...

2016-05-24 09:49:12

阅读数 7633

评论数 0

logistic回归详解(三):梯度下降训练方法

在http://blog.csdn.net/bitcarmanlee/article/details/51165444中,我们已经对logistic回归的cost function做了完整的推导。如果是单个样本,其损失函数为: cost(hθ(x),y)=−yilog(hθ(x))−(1−yi)...

2016-05-22 08:14:49

阅读数 10461

评论数 3

基于sklearn 的one hot encoding

1.one hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单...

2016-05-21 22:41:54

阅读数 29286

评论数 5

Hadoop Configuration 源码详解

hadoop里相关的配置在org.apache.hadoop.conf包里,Configuration类就在里面。关于配置类的相互关系,已经在: http://blog.csdn.net/bitcarmanlee/article/details/51454564中 有过详细的介绍。为了让大家更好...

2016-05-21 10:13:19

阅读数 3690

评论数 0

hadoop fs.trash 详解

linux系统里,我觉得最大的不方便之一就是没有回收站的概念。由rm -rf引发的血案,估计每个写代码的同学都遇到过。在hadoop或者说hdfs里面,有trash相关的概念,可以使得数据被误删以后,还可以找回来。1.打开trash相关选项hadoop里的trash选项默认是关闭的。所以如果要生效...

2016-05-20 22:18:54

阅读数 6115

评论数 0

hadoop Configured Configrable Configuration Tool 源码详解

在用java写MR的时候,定义类的第一行一般都是如下方式:public class XXX extends Configured implements Toolrun方法的一个实例如下:public int run(String[] args) throws Exception { ...

2016-05-19 16:00:32

阅读数 1114

评论数 0

linux mac tree 命令 总结

在写项目相关的解释文档或者说明文档或者需求文档的时候,经常需要列出项目代码的树状结构。tree命令就能很好的满足我们这个小小的需求linux与mac中的tree都不是自带的,需要自行安装。如果不会安装,请自行google在linux或者mac中怎样安装软件即可。。。1.最简单的方式最简单的使用方式...

2016-05-19 11:27:59

阅读数 580

评论数 0

git 远程仓库 remote 使用总结

git的远程仓库是指托管在网络上的项目仓库。对于公司来说,绝大部分公司都会自己搭建自己的git仓库。对于RD来说,自然免不了要经常跟远程仓库 remote打交道。今天我们就来对远程仓库的使用做一个总结。第一步自然是将代码从仓库clone过来:lei.wang ~/gitcode $ git clo...

2016-05-17 09:24:57

阅读数 6107

评论数 0

hadoop mapper从源码开始 详解

hadoop的mapreduce计算框架中,最重要的两个部分自然就是mapper跟reducer了。写了这么久的MR,一直没有机会研究源码,也挺遗憾的。趁着这波有一些要深入了解的需求,加上周末的一些时间,仔细阅读了一下mapper相关源码,有了自己的一些小小心得,权当笔记。写得不好或者有不对的地方...

2016-05-15 22:38:32

阅读数 6257

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭