Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们...

2016-05-31 12:40:35

阅读数:1238

评论数:0

Spark MLlib系列(二):基于协同过滤的电影推荐系统

前言 随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推...

2016-05-30 14:21:10

阅读数:669

评论数:0

Spark MLlib系列(一):入门介绍

前言 最新的情况是国内BAT已经都上了spark,而且spark在hadoop上的应用,大有为大象插上翅膀的效果。个人估计在未来两到三年,spark大有代替hadoop的mapreduce的趋势。应该说spark的在使用上面的经济成本,性能优势,一站式解决能力,一定会使其大放异彩...

2016-05-30 14:19:46

阅读数:365

评论数:0

linux内存,free命令介绍

一. 内存使用说明   Free 命令相对于top 提供了更简洁的查看系统内存使用情况:   [root@rac1 ~]# free               total       used       free     shared    buffers     cached M...

2016-05-21 10:45:37

阅读数:198

评论数:0

SparkSQL相关语句总结

1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 in...

2016-05-20 17:36:19

阅读数:4213

评论数:0

spark安装配置

1.ssh互信 2.配置scala 3.配置spark-env.sh export SCALA_HOME=/apps/scala-2.10.6 export JAVA_HOME=/apps/jdk export SPARK_MASTER_IP=10.10.69.195 export SPARK_...

2016-05-20 14:00:35

阅读数:217

评论数:0

Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(Dr...

2016-05-16 18:28:55

阅读数:421

评论数:0

java.util.BitSet 研究(存数海量数据时的一个途径)

java.util.BitSet可以按位存储。 计算机中一个字节(byte)占8位(bit),我们java中数据至少按字节存储的, 比如一个int占4个字节。 如果遇到大的数据量,这样必然会需要很大存储空间和内存。 如何减少数据占用存储空间和内存可以用算法解决。 java.uti...

2016-05-16 14:20:16

阅读数:194

评论数:0

大数据去重

前天接到电话面试,有一个url 去除重复的问题,场景大概是: 公司获取了大量url,肯定是超过内存了,按行存放,现在目的想剔除重复的数据 比如:一个5G 的txt 文件,url 一行一行的存放,而我们的内存只限制1G   我当时首先考虑分拆文件,然后hash,然后想排序比较,当时没想到好的...

2016-05-16 13:16:59

阅读数:3496

评论数:0

spark使用

1. 概述 目标读者 本文档面向Spark应用开发人员,并要求用户具备一定的Java和Scala的开发经验。 简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: ...

2016-05-11 13:49:48

阅读数:534

评论数:0

Hadoop文件压缩

hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。 hadoop对每个压缩格...

2016-05-11 12:33:27

阅读数:431

评论数:0

深入理解Apache Flink核心技术

Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRe...

2016-05-05 18:40:04

阅读数:540

评论数:0

hcatalog简介和使用

Hcatalog是apache开源的对于表和底层数据管理统一服务平台,目前最新release版本是0.5,不过需要hive 0.10支持,由于我们hive集群版本是0.9.0,所以只能降级使用hcatalog 0.4,由于hcatalog中所有的底层数据信息都是保存在hive metastore里...

2016-05-05 16:52:22

阅读数:457

评论数:0

在HDFS上配置Alluxio

初始步骤 要在一组机器上运行一个Alluxio集群,需要在每台机器上部署Alluxio二进制包。你可以自己编译Alluxio,或者下载二进制包 注意,在默认情况下,预编译的Alluxio二进制包适用于HDFS 2.2.0,若使用其他版本的Hadoop,需要从Alluxio源代码重新编译,且编译...

2016-05-05 10:41:25

阅读数:4813

评论数:1

深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 可以跳过不符合条件的数据,只读取需要的数据,...

2016-05-05 10:08:30

阅读数:608

评论数:0

Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

1、Tachyon介绍 1.1 Tachyon简介 随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替...

2016-05-04 16:19:26

阅读数:789

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭