Spark 处理中文乱码问题(UTF-8编码)

问题场景 要用spark处理一大堆微信日志数据,日志存放在HDFS上,是xml格式,里面有大量的中文。用scala + java实现了xml的处理逻辑,其中有一步是要获取xml中的一个title字段,中文。不管怎么抓取,最终得到的中文都会变成一堆“?????”,乱码了。从xml中获取非中文字段,没...

2015-12-03 16:14:24

阅读数 23561

评论数 0

Eclipse下Java+Scala混合编程的Maven项目

用spark + java混合实现spark项目,我想肯定有我一样坚持要用eclipse + maven来配置开发环境,而不愿意换Intelij + sbt的同学吧。 照着文章中的步骤配置,完全ok。好文共享,原文挺好懂的,就不翻译了~ ========================...

2015-10-26 18:15:48

阅读数 4868

评论数 0

spark1.4.1中sparkR的编译使用全过程

**本文针对那些和我一样,对spark还挺熟悉但对R知之甚少甚至之前没听过的同学,在spark引入了sparkR后才开始零基础地开始学习使用。如果你本身对R和sparkR已经很熟悉了,就不用看了。 本文主要包含的内容:  spark1.4.1编译 sparkR使用环境配置 sparkR的第...

2015-09-06 17:33:33

阅读数 1389

评论数 0

【MapReduce开发】计算PI

MapReduce无法进行递归和迭代式的计算,所以目前基于MapReduce计算PI的算法只有一种,就是Stanford在一篇论文里提到过的一种掷飞镖计算方法。原文我在网上没有找到,所以就把网友的文章截图附一下吧:

2015-08-13 15:49:07

阅读数 2227

评论数 0

Halton Sequence 原理和代码实现

Halton Sequence是一种随机序列,被用来生成均匀分布的随机数。最常被应用的地方就是Monte Carlo算法。因为最近在学习MapReduce算法,在看对PI的计算实现时了解到Halton Sequence,但惊讶地发现Google竟然搜不到多少介绍,不知道是已经没什么人用了,还是比较...

2015-08-11 16:24:13

阅读数 3698

评论数 1

Hadoop2.x eclipse下编程环境配置

这个过程,是针对如何在eclipse中编写hadoop2.x对应的MapReduce程序,然后打包并上传到hadoop集群执行的过程。 1. 下载hadoop2.x的tar包,解压到某个目录下(注: 不是源码包,是安装包) 2. 将hadoop2x-eclipse插...

2015-08-10 11:54:33

阅读数 967

评论数 0

C4.5算法(一)代码实现

入门学习机器学习的十大算法,第一站就是C4.5算法。C4.5是一种决策树算法,属于监督学习。先给一个样本集,从而建立一棵决策树,然后根据这个决策树来对后续的数据做决策。

2015-08-06 15:37:31

阅读数 4374

评论数 1

hadoop2.x HDFS快照介绍

翻译自Apache官方文档,Hadoop2.x版本的snapshot快照功能介绍。

2015-07-23 14:44:50

阅读数 2974

评论数 1

Hadoop2.0 HA的checkpoint过程

hdfs将文件系统的元数据信息存放在fsimage和一系列的edits文件中。在启动HDFS集群时,系统会先加载fsimage,然后逐个执行所有Edits文件中的每一条操作,来获取完整的文件系统元数据。 Edits & fsimage文件 HDFS的存储元数据是由fsimage和edi...

2015-07-22 15:00:38

阅读数 5509

评论数 0

hadoop2.0报错“There appears to be a gap in the edit log”

今天升级集群的时候遇到了这个问题。解决问题的过程中,借机也巩固了下对namenode启动过程的理解。这个问题网上几乎没查到好的解决办法,Google出来的办法说让Recovery,对已经有很大数据量的线上集群来说,风险太大,不可取。所以只能自己读着源码一步一步分析,最终还是完美地解决了,哈哈。

2015-07-15 17:56:29

阅读数 5868

评论数 3

Spark Streaming+kafka+eclipse编程

eclipse本身对Scala的支持不是很友好,但还是有一部分同学(比如我)习惯用eclipse来做开发。所以这里提供结合spark streaming+kafka编程在eclipse上实现的过程。###安装配置单机版kafka **如果已经有kafka,这一步跳过。参考官网介绍步骤进行。**...

2015-05-27 17:15:20

阅读数 2222

评论数 0

Hadoop2.0:Jvisualvm监控MapReduce和spark作业

注意: 这个监控适用于执行时间长的作业,比如数据量较大的mapreduce和spark,以及spark streaming等。对几秒到几分钟的作业,恐怕你还没配置好jvisualvm监控,作业就结束了。 昨天看了一篇介绍如何用jvisualvm监控spark作业的方法,因为我的MapReduce...

2015-05-15 11:43:12

阅读数 1834

评论数 0

highcharts图表史上最全的参数配置(属性+事件)

【转自: http://www.cnblogs.com/LiviaLiu742X/p/3205450.html  】 今天这里将给大家全全展现相关的参数配置: chart.events.addSeries:添加数列到图表中。 chart.events.click:整个图表的绘...

2015-05-08 16:09:00

阅读数 5862

评论数 0

hadoop ganglia安装配置详解

下面是包括ganglia的安装,和ganglia监控hadoop的配置的完整过程。以及在安装过程中遇到的各种问题和解决方法的记录。ganglia版本为3.6,hadoop版本为cdh5. 准备工作 准备工作中的各项安装,在每个节点,包括gmetad和gmond上都需要。 1. 安装依赖 ...

2015-03-16 18:31:12

阅读数 1194

评论数 0

spark 1.1.0 编译使用 & 爬坑记录

虽然1.2.1版本也已经出来了,估计还是有很多人在用1.1.0或者1.0.0 版本。所以把编译和使用1.1.0版本时遇到的一些问题和解决思路写在这里,供参考。 因为我们对cdh版本的hadoop做了一些生产环境相关的修改,所以每次升级spark都需要基于源码自己进行编译。编译方法很简单,而且我在这...

2015-03-02 16:14:31

阅读数 4944

评论数 0

安装OpenCV:OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置

Amber有话说: 如何安装配置 VIsual Studio2010 + openCV2.4.10。上次偶然看到了Julia集和Mandelbrot集,就想自己实现下。所以开始学习使用openCV。第一步就是搭建环境。按照这篇文章一步一步安装成功,博主讲的很细致也很准确,适合零基础的童鞋,转载留...

2014-12-23 14:15:35

阅读数 775

评论数 0

spark on yarn作业运行的jar包缓存优化

这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对...

2014-12-22 15:56:45

阅读数 8184

评论数 1

修改hadoop源码后,hadoop和spark的编译过程

近期对hadoop2.0源码做了一些修改,根据业务需要,添加了一点小小的功能。而且我们的hadoop2.0环境上同时运行着MapReduce和spark计算框架,所以hadoop源码的修改同时涉及到了hadoop的重新编译,以及spark的重新编译。下面是对编译过程的一点记录。编译的主要难点和关键...

2014-11-12 12:24:11

阅读数 1919

评论数 0

hadoop1.0到2.0的升级(非跨版本)

注: 升级步骤不涉及HA和federation。如何在Hadoop2.0上部署HA和federation,可以查看另外两篇文章。 这是1.0升级2.0的简单升级配置步骤。实践了一下,挺顺利的,HDFS1.0平稳升级2.0,不存在任何不兼容的问题,而且数据没有任何丢失。MR升级中的兼容性问题,下面...

2014-09-29 10:30:00

阅读数 862

评论数 0

RDD,弹性分布式数据集

本文参考了 RDD的概述          RDD是spark计算系统的核心和精华,所以下面针对RDD进行简单的探讨。            先用一个小例子来具象描述一下RDD的主要工作过程:首先你从HDFS中以K-V格式读入一个文件file1,得到r1;r1是我们的第一个RDD,...

2014-08-25 14:43:46

阅读数 1391

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭