自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Azkaban Quick Start

在开始之前这里使用 Web server + Executor 的模式,不使用Solo server下载地址环境搭建配置数据库注:目前Azkaban2仅支持MySQL作为数据存储仓库。安装MySQL可参考: MySQL Documentation Site。配置数据库为Azkaban创建一个数据库,如:mysq

2015-12-08 23:19:53 695

原创 Hive数据迁移

简介基于全表导出和全表导入。流程为Source Hive -> Source HDFS Cluster -> Destination HDFS Cluster -> Destination Hive(Source端)群集操作1. 创建导出临时目录这里定为hdfs://tmp/hive-export/假设这里导出的数据库名为

2015-12-08 23:18:30 674

原创 Flume日志采集系统的安装和部署

由Cloudera 公司开发,然后贡献给了apache现已经成为apache下面的一级开源项目。基本介绍:按照flume的官方文档,flume是一种分布式的,可靠的,有效收集,聚集和移动大量的日志数据的可用服务。它的架构基于数据流的简单且灵活,具有很好的鲁棒性和容错可调的可靠性机制和多故障转移和恢复机制。它使用了一个简单的可扩展的数据模型,允许在线分析应用。适用范围:业界主要用flume来

2015-12-08 23:15:51 1722

原创 GoogleVis包生成的网页没有图像的解决办法

在参照这个网址:http://bbs.pinggu.org/thread-2882927-1-1.html 制作googleVis的地图的时候,发现plot打开的网页没有任何图像,无奈网上都没说怎么解决,只好翻墙到googlecode找答案,解决办法如下:这是因为FLASH导致的,进入http://www.macromedia.com/support/documentation/e

2015-07-05 19:14:32 1048 1

原创 Hive1.1安装配置,基于最小安装的CentOS7、hadoop2.6、MySQL

hive搭建

2015-05-23 16:51:27 1774

原创 R语言学习之dplyr包

dplyr包被称为是十大R语言必学包之一,下面简单介绍包内的常用函数,参考来自dplyr包文档:1.filter(df, condition1, condition2,..., .dots)过滤函数,df为目标数据框,下面我都用df指代目标数据框,就不再赘述,后面跟的都是过滤条件,最后面那个.dots是一个类似于传递柯里化函数的东西,可以单独讲一篇了。。这里就不展开了,后面的每一个函数都可

2015-05-19 21:51:00 6594

原创 R语言文本挖掘1——词云制作,基于Rwordseg包

基于Rwordseg包的词云分析

2015-05-18 00:20:39 3256 1

原创 Spark的MLLib中,SVM官方示例所用的load方法源码解读

Spark中MLLib中SVM官方算法的load方法的阅读

2015-05-17 11:38:59 3681

原创 LCS(最大公共序列) scala版本

这个算法也是学习自七月算法,也请教了醉清风网友,非常感谢他的指点。通过构建矩阵的方式匹配。具体如下,整体与Java或C++版本在写法上没有本质区别,主要是熟悉了二元数组以及循环等。这个写法还有可以改进的地方,不过由于暂时没时间改了,等往后闲下来再修改(比如跟之前贴的算法一样,写成隐式转换,比如while循环写入def,还可以尝试用其他方式构造矩阵,比如列表数组、数组向量等)object LCS

2015-05-17 11:01:10 1049

原创 SVM算法的理解

距离上次看SVM算法已经快过了半个月了,今天再次看到,温故知新后决定把自己的理解写出来。不过由于本人文笔不佳,所以想到什么写什么,等有空了再整理。看到觉得混乱的还请见谅。 刚刚看SVM的时候,只能明白支持向量机之所以叫支持向量机是因为支持向量,后面懂得了w的内容是什么、几何距离的意义、低维映射到高维的作用、核函数、SMO、随机梯度下降。SVM算法相对其他机器学习算法,内容涉及要广的多,很多

2015-05-17 00:04:11 681

原创 和最大的非空子数组(scala版本)

给定一个整数数组,求它的子数组(连续)里面最大的和是多少算法思路来自于:http://www.julyedu.com/video/play/id/19 中思路四,代码相对迭代算法简单很多,思路也容易理解,我谨将C++算法转换成scala算法,其他思路请到七月算法中查看,如有错误请指正。object test{ val a = Array(1,-2,3,-20,-5,4,5,4,5)

2015-05-11 12:13:09 461

转载 用scala实现wordcount

这个算法来源于QQ群里一位叫醉清风的网友,对于怎么读取文件生成votes这个序列这里就不写了,主要是介绍count思路,使用groupBy函数聚集,然后使用两个map获得需要的统计量。object wordCountByScala extends App { val votes = Seq(("scala", 1), ("java", 4), ("scala", 10), ("scala

2015-05-11 11:32:34 658

原创 查找数组中唯一的一个数字,scala版本

/*Given an array of integers, every element appears twice except for one. Find that single one.Note: Your algorithm should have a linear runtime complexity. Could you implement it without using ext

2015-05-10 23:41:32 681

原创 面试题:给定a、b字符串,判断b是否为a的变位词(scala版本)

面试题:给定a、b字符串,判断b是否为a的变位词(scala版本)

2015-05-10 22:33:58 774

原创 交换*号到第一位的partition算法和不改变数字位置的算法 scala版本

下面算法想法来自七月算法上的视频:http://www.julyedu.com/video/play/id/28交换*号到第一位的partition算法:case class SortNum[T](str: String) { //因为字符串在scala里面是常量,一旦改变会生成一个新的字符串而不是在原本上更新,所以需要构建一个映射的数组 var strArray = str.toBu

2015-05-10 19:42:50 441

原创 已学习内容

已学内容,用于回顾和勉励自己

2015-05-10 11:31:46 417

转载 谷歌高管遇难后他妹妹写的通告

谷歌高管,Dan Fredinburg在尼泊尔地震引发的喜马拉雅山雪崩中不幸遇难后,他的妹妹在他的Twitter上告知所有喜欢Dan的人这一不幸的消息。Dan的生活非常精彩,曾到世界各个地方探险,雪崩事故停止了这位勇敢、阳光、不断发掘生命真谛的冒险家。下面附上他最后一条Twitter,来自他妹妹,写的非常好,这也是我把它摆到博客中的原因之一: This is Dans little sis

2015-05-05 20:02:33 543

原创 scala xml

scala xml

2015-05-05 15:53:51 409

原创 Spark 1.3与hadoop2.6在64位最小安装的CentOS 7中的部署

Spark 1.3与hadoop2.6部署在CentOS 7的操作

2015-05-02 13:47:18 925

原创 SCALA中this关键字

this关键字

2015-05-02 12:04:44 4841

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除