hadoop
a925907195
best
展开
-
hadoop安全模式
hadoop安全模式在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示转载 2014-11-14 21:00:05 · 662 阅读 · 0 评论 -
Spark Streaming实时计算框架介绍
Spark Streaming实时计算框架介绍 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介转载 2017-03-06 15:35:33 · 656 阅读 · 0 评论 -
子雨大数据之Spark入门教程
林子雨老师与其团队做的技术分享,值得去好好研究下林子雨老师 2016年10月30日 (updated: 2017年5月28日) 41436【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,转载 2017-07-31 17:53:50 · 18513 阅读 · 2 评论 -
Spark2.1.0入门:Spark的安装和使用
Spark2.1.0入门:Spark的安装和使用 林子雨老师 2017年2月19日 (updated: 2017年3月22日) 10759【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载![返回Spark教程首页]Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用转载 2017-07-31 18:08:01 · 1451 阅读 · 0 评论 -
Kafka的安装和简单实例测试
Kafka的安装和简单实例测试 阮榕城 2016年11月20日 (updated: 2016年11月21日) 2129Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。下面介绍有关Kafka的简单安装和使用,想全面了解Kafk转载 2017-07-31 18:08:52 · 1484 阅读 · 0 评论 -
Spark+Kafka构建实时分析Dashboard案例
Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备 罗道文 2017年4月21日 (updated: 2017年5月16日) 1940《Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备》开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn版权声明:版权归厦门大学数据库实验室所有转载 2017-07-31 18:10:04 · 3676 阅读 · 0 评论 -
子雨大数据之Spark入门教程
跟林子雨老师联系过,可惜目前没有组建面向非高校的技术讨论平台,在大学能做这么好的技术分享还是很佩服的,希望能组建个平台能供喜欢这方面的朋友共同讨论,技术相互提高。留个qq群号,如果感兴趣的一块讨论:227258283Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apac转载 2017-08-03 10:53:48 · 1086 阅读 · 0 评论 -
spark reparation和coalesce
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1、N小于M 一般情况下N个分区有数据...转载 2018-04-25 19:43:28 · 705 阅读 · 0 评论 -
spark参数调优
最近在搞一个sparkjob,耗时真的是醉醉的,最终的reduce过程只占三分之一的时间,其他的占了三分之二的时间,非常不合理,这个重新调整下摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFra...转载 2018-05-29 20:56:00 · 552 阅读 · 0 评论 -
记录两次sparkjob优化,性能提升几十倍不止
目前在做两个项目,一个搜索平台化一个排序服务化,在项目开发中两者都用到了spark开发数据处理,遇到问题多多,但解决后性能提升几十倍不止,下面记录下两次优化。一、在特征处理中,需要读取hive的数据进行业务逻辑处理写入到kv系统中,为了减少shuffle,每次处理直接用mapPartitons以及foreachPartitons进行处理,整体都速度不错,但是就是有那么几个特征hive表处理就是...原创 2018-09-04 18:04:38 · 1883 阅读 · 0 评论 -
一、Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算...转载 2018-09-07 15:29:18 · 236 阅读 · 0 评论 -
二、Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无...转载 2018-09-07 15:30:19 · 177 阅读 · 0 评论 -
三、Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性...转载 2018-09-07 15:31:05 · 227 阅读 · 0 评论 -
四、Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部...转载 2018-09-07 15:31:44 · 232 阅读 · 0 评论 -
HBaseRegionServer宕机数据恢复
HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。...转载 2019-02-15 11:44:47 · 510 阅读 · 1 评论 -
HBase - 数据写入流程解析
本文由 网易云 发布 作者:范欣欣本篇文章仅限内部分享,如需转载,请联系网易获取授权。 众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松地支撑每天10T 的写入量。当然,为了支持更高吞吐量的写入,HBase还在不断地进行优化和修正,这篇文章结合0.98版本的源码全面地分析HBase的写入流程,全文分为三个部分,第...转载 2019-02-15 14:09:28 · 288 阅读 · 0 评论 -
mapreduce创建solrcloud索引
原理图(摘自网络):1、datasourcehdfs或者TableMapReduceUtil来scan数据(不建议HFileInputFomat方式,易丢失数据)2、mapsetup()方法中通过zkHost创建CloudSolrServer,目的是通过docId,来计算这个docId应该router到哪个shardId,关键代码为:// cop转载 2017-01-17 15:06:07 · 549 阅读 · 0 评论 -
Ubuntu16.04下hadoop-2.6.0单机配置和伪分布式配置
[-]注意安装之前最好删除hadoop-260dfsdata下的所有文件避免出现各种问题尤其安装包不是官方现下载的需要重新编译的教程httpblogcsdnnetggz631047367articledetails42460589在Ubuntu下创建hadoop用户组和用户在Ubuntu下安装JDK安装ssh服务 建立ssh无密码登录本机安装hadoop测试Hadoop伪分布式配置转载 2016-09-22 17:16:43 · 3779 阅读 · 0 评论 -
Zookeeper在Ubuntu12.04中的安装
一、安装需求安装java 1.7.25及hadoop 1.20.x 二、安装zookeeper1、下载zookeeperwget http://mirror.bit.edu.cn/apache//zookeeper/zookeeper-3.4.2/zookeeper-3.4.2.tar.gz(本次安装3.4.2版本)其他版本下载地址(最好使用stable版本):http:/原创 2014-11-14 00:43:56 · 685 阅读 · 0 评论 -
hive在Ubuntu下的的安装和配置以及与hbase进行连接
hive的安装和配置 downloadwget http://mirror.mel.bkb.net.au/pub/apache//hive/stable/只需要在一个节点上安装 2. 把Hive移动到/usr/local/hadoop目录下并解压hadoop@ubuntu:~/下载$ mv hive-0.9.0.tar.gz /usr/local/hadoophadoo原创 2014-11-14 14:17:39 · 997 阅读 · 0 评论 -
对于solrcloud节点删除后,依然在页面显示问题
因为在创建solrcloud的节点后,配置文件会传入Zookeeper中进行统一的原创 2014-11-14 15:19:50 · 3190 阅读 · 0 评论 -
hadoop2.X如何将namenode与SecondaryNameNode分开配置
本帖最后由 pig2 于 2014-6-17 19:54 编辑问题导读1.如何将namenode与SecondaryNameNode分开?2.SecondaryNameNode单独配置,需要修改那些配置文件?3.masters文件的作用是什么?我们这里假设你已经安装配置了hadoop2.2,至于如何配置可以参考,hadoop2.2完全分布式最转载 2014-11-14 22:24:35 · 11901 阅读 · 1 评论 -
SolrCloud 4.7+Tomcat 安装配置实践
SolrCloud 4.7+Tomcat 安装配置实践 SolrCloud 4.3.1+Tomcat 7安装配置实践我们使用Solr Replication可以实现Solr服务器的可用性,即使某一个索引副本由于磁盘介质故障或者误操作删除等,其他的多个复制副本仍然可以提供服务。如果只是单纯的基于Solr Replication技术,只能对一个索引进行管理维护,当索引数据达到一定规模,搜索的性原创 2014-11-14 15:02:14 · 1363 阅读 · 0 评论 -
ermission denied: user=root, access=WRITE, inode="hadoop":hadoop:supergroup:rwxr-xr-x
org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="hadoop":hadoop:supergroup:rwxr-xr-x原创 2014-11-14 23:19:54 · 8225 阅读 · 0 评论 -
hbase做简单操作练习示例
package HBaseTests;import java.io.IOException;import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguratio原创 2014-11-14 23:48:56 · 714 阅读 · 0 评论 -
利用ubuntu12.04搭建高可用的hadoop集群
利用ubuntu12.04搭建高可用的hadoop集群1、集群部署介绍1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础原创 2014-11-15 13:29:45 · 916 阅读 · 0 评论 -
MapReduce-过程介绍(求温度最大值)
Hadoop的内部工作机制: 分布式系统理论, 实际工程和常识于一体的系统.但是,Hadoop提供的用于构建分布式系统的工具–数据存储, 数据分析,和协调处理–都非常简单.每个阶段都以key/value对作为输入和输出, 类型由程序员选择.程序员需要定义两个函数: map函数和reduce函数.对于map阶段, 输入的是原始的NCDC(国家气候数据中心)数据原创 2014-12-22 21:16:06 · 3842 阅读 · 0 评论 -
在ubuntu下安装并测试pig以及常见的问题
1 安装 只安装在namenode节点上即可 1.1 下载并解压 下载:http://pig.apache.org/releases.html下载pig-0.12.1版本的pig-0.12.1.tar.gz 存放路径:/home/Hadoop/解压:tar -zxvf pig-0.12.1.tar.gz 改名:mv pig-0.12.1 pig 然后放到/usr/local/h原创 2015-01-01 22:59:15 · 3774 阅读 · 0 评论 -
javax.jdo.JDOFatalDataStoreException: Failed to create database 'metastore_db', see the next excepti
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to create database 'metastore_db', see the next exception for details.NestedThrowables:java.sql.SQLException: Failed to crea原创 2015-01-02 23:55:18 · 4110 阅读 · 0 评论 -
hbase 安装及简单测试
HBase安装 hadoop集群:hadoop1.2.1master 192.168.1.161slave01 192.168.1.163slave02 192.168.1.164slave03 192.168.1.165slave04 192.168.1.166 hbase版本: hbase0.94 1、修改hadoop hdfs-sit原创 2015-01-04 18:00:06 · 3029 阅读 · 0 评论 -
hive整合hbase并做测试
基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 HBase 0.90.5 + Hadoop 1.0.0 集成:http://blog.csdn.net/kunshan_shenbin/article/details/7209990第一步,启动hadoop,原创 2015-01-04 22:24:02 · 848 阅读 · 0 评论 -
hbase性能调优
本文主要介绍软件层面的性能调优。故,在此之前,请检查硬件状况。硬盘推荐SSD,一般SATA即可。网络千兆以上。可以安装Ganglia等工具,检查各节点的各硬件的运作状态:CPU,Memo,网络等等。 一、调整参数入门级的调优可以从调整参数开始。投入小,回报快。 1. Write Buffer Size快速配置Java代码 收藏代码HTable htable = new HTable(config,转载 2015-01-05 16:45:52 · 920 阅读 · 0 评论 -
基于Solr的HBase多条件查询测试
某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快 速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证。原理:基于Solr的HBase多条件查询原理很简单,将HBase转载 2016-01-14 11:18:55 · 756 阅读 · 0 评论 -
HRegionServer的详解
Point 1: HRegionServer一般和DataNode在同一台机器上运行,实现数据的本地性。Point 2: HRegionServer包含多个HRegion,由WAL(HLog)、BlockCache、MemStore、HFile组成。1.WAL即Write Ahead Log,在早期版本中称为HLog,它是HDFS上的一个文件,如其名字所表示的,所有写操作都会先保证将数...转载 2019-02-15 21:46:50 · 3726 阅读 · 0 评论