Hadoop生态技术体系_数据文字工作者的博客-CSDN博客

Hadoop生态技术体系

关注

文章平均质量分 50

主要介绍Hadoop生态体系Hadoop相关技术

关注数：文章数：199 文章阅读量：624531 文章收藏量：253

作者: 数据文字工作者

ToB行业大数据老兵一枚，专注数据中台与行业数据应用建设，熟悉数据开发、数据治理、数据资产管理、数据仓库相关技术体系和方法论，对国内大数据市场划分、产品需求及项目售前与交付流程有一定认知，希望通过文字总结、记录下自己的所见、所想，为大数据行业优秀的理念、方法论与技术体系传播与分享贡献自己的力量

展开

湖仓一体数据平台架构

什么是湖仓一体？湖仓一体平台架构方案

原创 2022-07-04 21:56:57 · 5261 阅读 · 2 评论
Spring中spring-data-redis的使用

参考：http://www.aboutyun.com/thread-20755-1-1.html

转载 2017-01-11 12:59:35 · 782 阅读 · 0 评论
Redis监控工具—Redis-stat、RedisLive

Redis-stat（Ruby）和Redis Live（python）是两款Redis监控工具，下面将介绍如何安装部署这两个工具，监控Redis运行情况[Plain Text] 纯文本查看复制代码?1234561测试环境： Ubuntu 14.04 LTS x64

转载 2016-04-09 13:27:34 · 1463 阅读 · 0 评论
如何阅读 Redis 源码

第 1 步：阅读数据结构实现刚开始阅读 Redis 源码的时候，最好从数据结构的相关文件开始读起，因为这些文件和 Redis 中的其他部分耦合最少，并且这些文件所实现的数据结构在大部分算法书上都可以了解到，所以从这些文件开始读是最轻松的、难度也是最低的。下表列出了 Redis 源码中，各个数据结构的实现文件：第 2

转载 2016-04-09 11:28:48 · 767 阅读 · 0 评论
为 Mahout 增加聚类评估功能

聚类算法及聚类评估 Silhouette 简介聚类算法简介聚类（clustering）是属于无监督学习（Unsupervised learning）的一种，用来把一组数据划分为几类，每类中的数据尽可能的相似，而不同类之间尽可能的差异最大化。通过聚类，可以为样本选取提供参考，或进行根源分析，或作为其它算法的预处理步骤。聚类算法中，最经典的要属于 Kmeans 算法，它的基本思

转载 2016-05-23 14:44:54 · 1035 阅读 · 0 评论
Apache Flink：详细入门

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常

转载 2016-05-23 14:01:14 · 21759 阅读 · 1 评论
Lucene全文搜索原理与使用

本文中主要是对于Lucene全文搜索的基础原理进行简单的分析，以及Lucene实现全文搜索的流程，之后就是Lucene在Java中的最简单使用：创建索引，查询索引库；本文中使用的Lucene主要是4.10.3和6.0.0，两个版本的原理相同，但是API的使用并不相同； 1、结构化数据与非结构化数据 2、非结构化数据搜索 3、全文搜索 4、搜索如何实现 5、Lucene

转载 2016-05-23 13:51:18 · 1522 阅读 · 0 评论
cassandra修改表的primary

现在cassandra数据库中有一张表因为同事在建表时定义错了primary key，现在需要重新修改primary key，而经过查看cql命令文档http://cassandra.apache.org/doc/cql3/CQL.html#alterTableStmt发现cassandra不支持直接修改primary key，因此需要将原表中的数据导出，之后删除原表，之后再按照修改后的表结构重新

原创 2016-07-29 17:14:23 · 3519 阅读 · 0 评论
cassandra导出和导入数据

cassandra像其他RDBMS一样提供了export/import工具：cqlsh命令COPY TO/FROM注意这不是cql命令。使用这组命令可以在cassandra与其他RDBMS或cassandra之间迁移数据。COPY TO/FROM支持CSV文件格式以及标准输出和输入。COPY TO/FROM命令同样支持集合数据类型。sstable2json/json2sstab

转载 2016-07-29 16:24:58 · 16757 阅读 · 1 评论
Cassandra在CQL语言数据类型与Java中数据类型对应关系

CQL类型对应Java类型描述asciiStringascii字符串bigintlong64位整数blobByteBuffer/byte[]二进制数组booleanboolean布尔counterlong计数器，支持原子性的增减，不支持直接赋值decimalB

原创 2016-05-23 13:44:38 · 1747 阅读 · 0 评论
Spring Data Cassandra 说明文档

地址：http://docs.spring.io/spring-data/cassandra/docs/1.4.1.RELEASE/reference/html/Preface：前言1. Project Metadata：项目相关地址Introduction：入门介绍2. Requirements：环境需求3. Additional Help Resources：额外的帮助资源

翻译 2016-05-12 15:46:22 · 1833 阅读 · 0 评论
Cassandra Primary Key讲解

在抽象设计模型时，我们常常需要面对另外一个问题，那就是如何指定各Column Family所使用的各种键。在Cassandra相关的各类文档中，我们常常会遇到以下一系列关键的名词：Partition Key，Clustering Key，Primary Key以及Composite Key。那么它们指的都是什么呢？　　Primary Key实际上是一个非常通用的概念。在Cassandra中

原创 2016-05-09 15:18:28 · 5813 阅读 · 0 评论
初创公司DataStax：专注于Cassandra

DataStax，是一家位于加州的初创公司，提供了一个商业版本的Apache Cassandra NoSQL数据库，近日该公司获得了4500万美元的D轮融资，该轮融资由Scale Ventures引导，这是一位新投资者，同时还有DFJ Growth和Next World Capital，现有的投资者Lightspeed Venture Partners、Crosslink Capital以及Mer

转载 2016-05-03 15:09:33 · 2452 阅读 · 0 评论
ELK结合Spark构建高可用架构及监控spark集群

1. ELK 系统是如何进行架构的？2. 为什么ELK 在 Spark 集群中是高可用性构架？3. ELK 可以监控 Spark 集群的哪些性能？4. ELK 可以监控 Spark 集群的哪些作业？解决方案：概述大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病

转载 2017-01-11 11:49:37 · 3337 阅读 · 0 评论
ELKELK(ElasticSearch, Logstash, Kibana)平台介绍

1. ELK平台包括哪些工具？2. ElasticSearch如何配置和启动？3. Logstash如何配置和启动？4. Kibana如何配置和启动？ELK平台介绍在搜索ELK资料的时候，发现这篇文章比较好，于是摘抄一小段：以下内容来自：http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志

转载 2016-07-22 09:08:58 · 784 阅读 · 0 评论
Elasticsearch4种搜索类型

es在查询时，可以指定搜索类型为QUERY_THEN_FETCH,QUERY_AND_FEATCH,DFS_QUERY_THEN_FEATCH和DFS_QUERY_AND_FEATCH。那么这4种搜索类型有什么区别？分布式搜索背景介绍：ES天生就是为分布式而生，但分布式有分布式的缺点。比如要搜索某个单词，但是数据却分别在5个分片（Shard)上面，这5个分片可能在5台主机

原创 2016-02-16 14:05:53 · 2057 阅读 · 0 评论
多字段搜索 (一) - 多个及单个查询字符串

多字段搜索(Multifield Search)本文翻译自官方指南的Multifield Search一章。查询很少是只拥有一个match查询子句的查询。我们经常需要对一个或者多个字段使用相同或者不同的查询字符串进行搜索，这意味着我们需要将多个查询子句和它们得到的相关度分值以一种有意义的方式进行合并。也许我们正在寻找一本名为战争与和平的书，它的作者是Leo Tolstoy。

翻译 2016-01-22 17:49:32 · 1932 阅读 · 0 评论
基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

代码下载地址：

原创 2016-01-22 10:35:32 · 1045 阅读 · 0 评论
Elasticsearch Java API 开发

API文档：https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/index.html

原创 2016-01-14 16:24:14 · 999 阅读 · 0 评论
Flume与Elasticsearch整合

在Flume1.6中的ElasticSearchSink支持Flume与Elasticsearch的整合，可以将Flume采集的数据传输到Elasticsearch中，其主要配置项如下：实现过程：JDK版本：1.7.0_79Elasticsearch版本：2.1.1Flume版本：1.6在flume的配置文件目录下添加如下配置文件vim es_log.conf

原创 2016-01-14 11:29:22 · 14490 阅读 · 1 评论
Cloudera Hue 使用经验分享，遇到的问题及解决方案

在使用Cloudera Hue时遇到一问题： 1. 使用Sqoop导入功能时，由于配置错误，使得“保存运行”后Job并不能正常提交，且界面上没有相关提示。解决办法：使用Hue的Sqoop shell -》 start job --jid * 提交会出现一些错误提示然后再去/var/log/sqoop/里面查看log2. 在使用Job Designer设计Sqoo

转载 2015-04-27 09:40:22 · 4109 阅读 · 0 评论
Hue二次开发（一）：创建App

一、版本基于2.5版本的源码。二、技术架构三、编译$ git clone http://github.com/cloudera/hue.git$ cd hue$ make apps复制代码Hue会将所有依赖都打在自己的build目录里。需要maven,依赖jdk1.6版本。四、例子4.1创建一个app

转载 2015-04-27 09:39:41 · 2509 阅读 · 0 评论
cloudera hue安装及Oozie的安装

下载hue 1.2下载地址：https://github.com/cloudera/hue/downloads/HADOOP_HOME=/hadoop/hadoop0.20.2 PREFIX=/hadoop/hue make install复制代码以前叫cloudera desktop，使用django作为web框架1. 安装wait

转载 2015-04-27 09:37:31 · 2806 阅读 · 0 评论
使用 Spark Streaming 检测关键词

许多公司使用 Apache Hadoop 等分布式文件系统来存储和分析数据。借助脱机 Hadoop 的流式传输分析，您可存储大量的大数据并实时分析它们。本文展示了一个使用 Spark Streaming 实现实时关键词检测的例子。Spark Streaming 是 Spark API 的一个扩展，它支持对实时数据流执行可扩展的、容错的处理。Spark Streaming 拥有丰富的适配

转载 2016-05-16 10:55:43 · 878 阅读 · 0 评论
Spark性能优化指南——基础篇

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18238前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项

转载 2016-05-04 14:05:49 · 593 阅读 · 0 评论
PySpark处理数据并图表分析

http://www.aboutyun.com/thread-18150-1-1.htmlPySpark简介官方对PySpark的释义为：“PySpark is the Python API for Spark”。也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作，从而实现使用python编写Spa

转载 2016-04-25 09:30:27 · 4849 阅读 · 1 评论
在R或Rstudio中调用SparkR

libpath libpath .libPaths(libpath)rm(libpath)library(rJava)library(devtools)library(SparkR)sc 或sc sqlContext linux下加载R包：install.packages('Cairo', dependencies=TRUE, repos

原创 2016-04-11 09:26:43 · 5095 阅读 · 0 评论
SparkR去数据子集错误：object of type 'S4' is not subsettable

sparkR在加载完数据之后取数据子集的时候出现如下错误：> coincidence.indicator Error in coincidence.indicator.original[1:coincidence.indicator.date, : object of type 'S4' is not subsettable造成的原因是：R在S3语法中与S4语法中访问

原创 2016-04-08 10:20:46 · 7526 阅读 · 0 评论
SparkR运行时错误：Re-using existing Spark Context. Please stop SparkR with sparkR.stop() or restart R to c

在SparkR shell运行时出现如下错误Re-using existing Spark Context. Please stop SparkR with sparkR.stop() or restart R to create a new 错误原因：上次使用完为关闭解决方法：使用如下命令关闭上次程序开启的程序：sparkR.stop()

原创 2016-04-07 23:35:13 · 879 阅读 · 0 评论
SparkR读取CSV格式文件错误java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.spark.u

使用如下命令启动sparkR shell：bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3之后读入csv文件：flights head(flights)报错：16/04/07 23:06:46 ERROR CsvRelation$: Exception while parsing line: 20

原创 2016-04-07 23:31:29 · 5579 阅读 · 0 评论
Spark的日志配置

在测试spark计算时，将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的，因为作业是提交到yarn的集群上，so 去yarn集群上看日志是很麻烦的，但有特别想看下print的信息，方便调试或者别的目的在Spark的conf目录下，把log4j.properties.template修改为log4j.properties

原创 2016-04-07 18:06:47 · 686 阅读 · 0 评论
SparkR运行时报错：Error in socketConnection(port = monitorPort) : cannot open the connection

在安装完Spark和R之后运行Spark自带的R示例报错：[SparkR@Master1 spark-1.6.1-bin-hadoop2.6]$ bin/spark-submit examples/src/main/r/dataframe.RLoading required package: methodsAttaching package: ‘SparkR’The

原创 2016-04-05 17:14:43 · 2556 阅读 · 1 评论
Spark Streaming+kafka+eclipse编程

http://blog.csdn.net/amber_amber/article/details/46049455eclipse本身对Scala的支持不是很友好，但还是有一部分同学（比如我）习惯用eclipse来做开发。所以这里提供结合spark streaming+kafka编程在eclipse上实现的过程。安装配置单机版kafka如果已经有kafka

转载 2016-03-31 17:56:06 · 1008 阅读 · 0 评论
spark 1.1.0 编译使用 & 爬坑记录

虽然1.2.1版本也已经出来了，估计还是有很多人在用1.1.0或者1.0.0 版本。所以把编译和使用1.1.0版本时遇到的一些问题和解决思路写在这里，供参考。因为我们对cdh版本的hadoop做了一些生产环境相关的修改，所以每次升级spark都需要基于源码自己进行编译。编译方法很简单，而且我在这篇文章 http://blog.csdn.net/amber_amber/article/det

转载 2016-03-31 17:53:40 · 998 阅读 · 0 评论
spark部署：在YARN上运行Spark

相关内容Spark中文手册-编程指南Spark之一个快速的例子Spark之基本概念Spark之基本概念Spark之基本概念（2）Spark之基本概念（3）Spark-sql由入门到精通Spark-sql由入门到精通续spark GraphX编程指南（1）spark GraphX编程指南（2）spark部署：提交应用程序及独立部署模式配

转载 2016-03-30 15:13:05 · 4898 阅读 · 0 评论
sparkHA配置报错

Spark的的配置文件spark-env.sh配置如下：export JAVA_HOME=/usr/local/jdk1.7.0_79export SCALA_HOME=/home/hadoop/scala-2.10.1exportHADOOP_HOME=/home/hadoop/hadoop-2.5.0export SPARK_MASTER_IP=Master1expor

原创 2016-03-30 15:00:58 · 3901 阅读 · 0 评论
编译spark1.6.0出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)

spark 1.6 编译1、下载spark1.6源码2、安装maven3、解压spark1.6 执行export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" cd spark1.6.0 ./make-distribution.sh --name hadoop2.

原创 2016-03-28 09:46:34 · 7820 阅读 · 0 评论
Spark MLlib 1.6 -- 特征抽取和变换

7.1 TF-IDFTF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，即有些词出现频率高反而没多少信息量，如,”

翻译 2016-03-22 10:39:57 · 543 阅读 · 0 评论
Spark 1.6.0 单机安装配置

Apache Spark 1.6.0在单机的部署，与在集群中部署的步骤基本一致，只是少了一些master和slave文件的配置。直接安装scala与Spark就可以在单机使用，但如果用到hdfs系统的话hadoop和jdk也要配置，建议全部安装配置好。0.Spark的安装准备Spark官网的文档 http://spark.apache.org/docs/latest/ 里是这样说的：

原创 2016-03-06 10:44:07 · 1339 阅读 · 0 评论
Spark Streaming使用Kafka保证数据零丢失

spark streaming从1.2开始提供了数据的零丢失，想享受这个特性，需要满足如下条件：数据输入需要可靠的sources和可靠的receivers 应用metadata必须通过应用driver checkpoint WAL（write ahead log）可靠的sources和receiversspark streaming可

原创 2016-02-15 10:18:18 · 759 阅读 · 0 评论

Hadoop生态技术体系

作者: 数据文字工作者

湖仓一体数据平台架构

Spring中spring-data-redis的使用

Redis监控工具—Redis-stat、RedisLive

如何阅读 Redis 源码

为 Mahout 增加聚类评估功能

Apache Flink：详细入门

Lucene全文搜索原理与使用

cassandra修改表的primary

cassandra导出和导入数据

Cassandra在CQL语言数据类型与Java中数据类型对应关系

Spring Data Cassandra 说明文档

Cassandra Primary Key讲解

初创公司DataStax：专注于Cassandra

ELK结合Spark构建高可用架构及监控spark集群

ELKELK(ElasticSearch, Logstash, Kibana)平台介绍

Elasticsearch4种搜索类型

多字段搜索 (一) - 多个及单个查询字符串

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

Elasticsearch Java API 开发

Flume与Elasticsearch整合

Cloudera Hue 使用经验分享，遇到的问题及解决方案

Hue二次开发（一）：创建App

cloudera hue安装及Oozie的安装

使用 Spark Streaming 检测关键词

Spark性能优化指南——基础篇

PySpark处理数据并图表分析

在R或Rstudio中调用SparkR

SparkR去数据子集错误：object of type 'S4' is not subsettable

SparkR运行时错误：Re-using existing Spark Context. Please stop SparkR with sparkR.stop() or restart R to c

SparkR读取CSV格式文件错误java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.spark.u

Spark的日志配置

SparkR运行时报错：Error in socketConnection(port = monitorPort) : cannot open the connection

Spark Streaming+kafka+eclipse编程

spark 1.1.0 编译使用 & 爬坑记录

spark部署：在YARN上运行Spark

sparkHA配置报错

编译spark1.6.0出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)

Spark MLlib 1.6 -- 特征抽取和变换

Spark 1.6.0 单机安装配置

Spark Streaming使用Kafka保证数据零丢失