大数据
刘媚-海外
这个作者很懒,什么都没留下…
展开
-
ZooKeeper的工作原理
Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。为了保证事务...原创 2018-05-26 17:01:39 · 148 阅读 · 0 评论 -
Spark Streaming运行原理
spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理。...原创 2018-06-18 14:36:08 · 3216 阅读 · 0 评论 -
sqoop启动遇到的Could not find or load main class "-Djava.library.path=.usr.local.src.hadoop-2.7.1.lib"
问题描述:Error: Could not find or load main class "-Djava.library.path=.usr.local.src.hadoop-2.7.1.lib"解决办法:在hadoop-env.sh中或者/etc/profile中加入以下两行配置:export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/na...原创 2018-07-01 23:02:11 · 1863 阅读 · 0 评论 -
kafka启动:Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memor
错误信息如下:Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c0000000, 1073741824, 0) failed; error='Cannot allocate memory' (errno=12)## There is insufficient memory for the ...原创 2018-07-02 15:22:39 · 10158 阅读 · 2 评论 -
Hbase过滤器查询
引言:过滤器的类型很多,但是可以分为两大类——比较过滤器,专用过滤器过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端;一、hbase过滤器的分类 1、比较过滤器 行键过滤器 RowFilterFilter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes...转载 2018-07-11 10:33:36 · 199 阅读 · 0 评论 -
大数据优秀书籍推荐
资源链接地址:==============================================================资源链接地址:==============================================================《数据即未来》原创 2018-07-12 19:24:59 · 3782 阅读 · 2 评论 -
页面分析:页面停留时间+页面路径分析
页面停留时间 通过js获取访问页面时刻的时间戳:比如js中设置ar_get_time()方法获取当前时间戳。 分析页面停留时间2.1平均页面停留时间avg(pagetime)pagetime=(1次会话时间/该会话访问的页面数)1次会话时间=该会话中最大的时间戳-该会话中最小的时间戳1次会话访问的页面数=distinct ssid 2.2单个页面停留时间avg(pa...原创 2018-11-13 16:45:29 · 2304 阅读 · 0 评论 -
azkaban启动报错:Provider org.apache.xerces.jaxp.DocumentBuilderFactoryImpl not found
Provider org.apache.xerces.jaxp.DocumentBuilderFactoryImpl not found导致Could not instantiate UserManager azkaban.user.XmlUserManager。原因:缺少xerces.jar包原创 2018-11-26 15:36:50 · 1376 阅读 · 0 评论 -
Permission denied: user=root, access=WRITE, inode="/user/root/.staging":hdfs:hdfs:drwxr-xr-x
解决办法如上图,创建root目录,并将该目录赋给hdfs组的root 用户所属原创 2018-11-27 16:20:01 · 1392 阅读 · 0 评论 -
com.mysql.jdbc.PacketTooBigException: Packet for query is too large
Caused by: com.mysql.jdbc.PacketTooBigException: Packet for query is too large (3227 > 1024). You can change this value on the server by setting the max_allowed_packet' variable.at com.mysql.jdbc....原创 2018-12-08 17:56:07 · 205 阅读 · 0 评论 -
HQL优化
基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段2. on 条件字段尽量不要使用函数处理3. on 条件后面尽量不用或者少用where4. group by的字段不要使用函数处理5. 尽量避免重复计算,相同计算逻辑的sql片段考虑建临时表复用 =============5:写SQL要先了解数据本身的特点,如...原创 2019-01-17 17:04:17 · 599 阅读 · 0 评论 -
大数据开发工程师面试题锦集
1、一个网络商城1天大概产生多少G的日志?10GB2、1天大概有多少条日志记录(在不清洗的情况下)?1千万条3、日访问量大概有多少个?几十万个独立访客4、注册数大概多少?不清楚几百万吧5、我们的日志是不是除了apache的访问日志是不是还有其他的日志?log4j日志6、你们的服务器有多少台?几十台7、你们服务器的内存多大?有的8G,有的16G8...原创 2018-06-17 17:10:01 · 5204 阅读 · 0 评论 -
文件很大,内存受限, 怎么统计
1. 分而治之/hash映射;2. hash统计;3.堆/归并排序。原创 2018-06-16 16:57:03 · 526 阅读 · 0 评论 -
大数据相关技术核心点
1.Flume:Agent(代理)2.hdfs:NameNode(名字节点)3.MapReduce:shuffle机制4.hive:Hql5.kafka:broker6.storm:topology7.spark:RDD扩展:spark是专门用于大数据量下的迭代式计算.是为了跟 Hadoop 配合而开发出来的...原创 2018-05-23 11:05:42 · 317 阅读 · 0 评论 -
zookeeper选举流程简述
zookeeper选举流程简述(fast-paxos)目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking。服务器2启动,给自己投票,同时与之前启动的服务器1交换结果,由于服务器2的编号大所以服务器2胜出,但此时投票...原创 2018-05-28 18:25:16 · 868 阅读 · 0 评论 -
Hadoop2.7高可用集群搭建步骤
集群节点分配Park01 Zookeeper NameNode (active)Resourcemanager (active) Park02Zookeeper NameNode (standby) Park03Zookeeper ResourceManager (standby) Park04DataNode NodeManager JournalNode Park05DataNodeNod...原创 2018-06-11 16:57:47 · 494 阅读 · 0 评论 -
Hadoop2.7集群datanode都起不来解决方案
datanode起不来的原因可以是:进行了namenode格式化操作。每次进行namenode格式化都会清空namenode文件存放目录下的文件并产生一个新的clusterID,但不会清空datanode产生的数据所存放的文件夹目录下的文件,也就是datanode文件存放目录下保存的clusterID还是之前的clusterID,这导致namenode下的clusterID和datanode下的c...原创 2018-06-11 17:19:25 · 2894 阅读 · 0 评论 -
Spark On Yarn搭建
实现步骤:1)搭建好Hadoop(版本,2.7)集群2)安装和配置scala(版本,2.11)上传解压scala-2.11.0.tgz—>配置 /etc/profile文件配置示例:3)在NodeManager节点(04,05,06节点)上安装和配置Spark4)进入Spark安装目录的Conf目录,配置:spark-env.sh 文件配置示例:export JAVA_HOME=/usr/l...原创 2018-06-11 17:28:59 · 298 阅读 · 0 评论 -
Spark 任务调度之启动CoarseGrainedExecutorBackend
概要本篇博客是Spark 任务调度概述详细流程中的第五部分,介绍CoarseGrainedExecutorBackend的启动。CoarseGrainedExecutorBackend在介绍CoarseGrainedExecutorBackend的启动流程前,先了解下CoarseGrainedExecutorBackend。我们知道Executor负责计算任务,即执行task,而Executor对...转载 2018-06-12 15:52:31 · 354 阅读 · 0 评论 -
ecelipse下开发mapreduce需要导入的Jar包
hadoop-2.7.1/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)hadoop-2.7.1/share/hadoop/common下的hadoop-common-2.7.1.jarhadoop-2.7.1/share/hadoop/common/lib下的commons-cli-1.2.jar...原创 2018-06-13 14:32:41 · 2705 阅读 · 0 评论 -
Spark性能调优
对需要重复计算的才使用 cache, 同时及时释放掉(unpersist)不再需要使用的 RDD避免使用 shuffle 运算.需要的时候尽量选取较优方案合理配置 Executor/Task/core 的参数,合理分配持久化/ shuffle的内存占比: driver-memory: 1Gexecutor-memory: 4~8G(根据实际需求来)num-executors: 50~100e...原创 2018-06-01 12:22:57 · 112 阅读 · 0 评论 -
HADOOP伪分布式namenode起不来:InconsistentFSStateException
第一步:查看日志文件,报错信息如下:InconsistentFSStateException: Directory /usr/local/src/hadoop-2.7.1-alone/tmp/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible这里的目录既然是在tmp下...原创 2018-06-08 13:53:22 · 1095 阅读 · 0 评论 -
RDD:spark的核心
RDD是spark的核心,也是整个spark的架构基础,RDD是弹性分布式集合(Resilient Distributed Datasets)的简称,是分布式只读且已分区集合对象。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建。具有自动容错、位置感知调度和可伸缩性,而容错性是最难实现的,大多数分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。对于大规模数据分析系统,数据检查...转载 2018-06-01 18:02:26 · 187 阅读 · 0 评论 -
数据仓库分层
DW :data warehouse翻译成数据仓库DW数据分层,由下到上为 DWD,DWB,DWSODS:Operational Data Store 细节数据层(操作数据存储),是业务层与数据仓库的隔离层,也被称为贴源层,是数据仓库体系结构中的一个可选部分。DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:...原创 2019-09-18 22:02:43 · 566 阅读 · 0 评论