bitcarmanlee的博客

米厂的小码农,专注数据与算法,qq群:397173819

java生成md5

系统中的密码等用户信息,肯定不能用明文来存储。如果有发生信息泄露等问题,用明文存储的密码就太危险了。所以一般我们都用md5等方式来对密码进行加密处理。 以下代码就可以用来生成字符串的md5加密。public class Md5UtilDemo { public static String ...

2016-12-23 13:46:09

阅读数:614

评论数:0

mllib逻辑回归LogisticRegressionWithLBFGS LogisticRegressionModel源码分析

前面一篇文章分析了mllib中的线性回归模型。线性回归一般是用来做拟合使用。实际工作中,分类也是与回归一样常见的需求,甚至可以说比回归分析的需求更大。本文结合mllib的源码,分析在spark中用得最多的一种分类模型:逻辑回归LogisticRegressionWithLBFGS。

2016-12-20 12:41:14

阅读数:3616

评论数:0

mllib线性回归GeneralizedLinearModel GeneralizedLinearAlgorithm源码解析

线性回归与线性分类在实际工作中使用的频率非常高,mllib中对这两大类算法自然也有完整实现。现在我们就结合相关源码来对着两大类算法进行分析。本文先分析线性回归。二话不说,先上源码。看优秀项目的源码本身就是一种巨大的享受。为了控制篇幅,将一些注释以及import内容先行省略。1.Generalize...

2016-12-19 20:19:35

阅读数:1390

评论数:0

hadoop文件的序列化

1、为什么要序列化?一般来说,”活的”对象只存在内存里,关机断电就没有了。而且”活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储”活的”对象,可以将”活的”对象发送到远程计算机。2、什么是序列化?序列化就是指将对象(实例)转化为字节流(字符数组)。反序列化就...

2016-12-18 11:10:38

阅读数:947

评论数:0

分布式系统中的序列化与反序列化

1.定义以及相关概念作者 刘丁 发布于 2015年5月7日 | 3 讨论 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 稍后阅读我的阅读清单 简介文章作者服务于美团推荐与个性化组,该组致力于为美团用户提供每天billion级别的高质量个性化推荐以及排序服务。...

2016-12-17 20:26:02

阅读数:1870

评论数:0

深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。1.列式存储列式存储和行式存储相比有哪些优势呢?1.可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。 2.压缩编码可以降低磁盘...

2016-12-17 17:06:37

阅读数:1145

评论数:0

java中操作时间

实际编码中,对时间与日期的操作是非常常见的需求。写了个比较简单的类,来满足部分对时间相关的操作。后续可以根据需求再添加相关功能。import java.text.ParseException; import java.text.SimpleDateFormat; import java.util....

2016-12-16 12:56:58

阅读数:602

评论数:0

ansj分词史上最详细教程

最近的项目需要使用到分词技术。本着不重复造轮子的原则,使用了ansj_seg来进行分词。本文结合博主使用经过,教大家用最快的速度上手使用ansj分词。1.给ansj来个硬广

2016-12-13 11:29:50

阅读数:29609

评论数:3

scala implicit隐式转化与隐式参数

scala的各种源码里,有大量的implicit关键字。老见到他晃来晃去又不知道为什么,本博主憋得慌,于是有了这篇小文章。1.最常见的隐式转换函数我们定义了一个方法test,接受的参数类型是String。当我们输出的参数为”101”的时候,显然是OK的。但是当输入的参数为101这个int时,显然就...

2016-12-05 22:40:26

阅读数:773

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭