大数据—Hadoop
文章平均质量分 51
章锡平
道生一,一生二,二生万物。
展开
-
Jetty 架构
一、Jetty具备以下特点: 快速高效 。Jetty是最快的Servlet服务器之一 。Jetty可以处理上千个并发连接 小巧嵌入 。Jetty的jar只有600多K 。可动态嵌入到应用程序,适合开发web2.0等应用 应用广泛 。开源项目有Geronimo , JBoss, JOnAS等 。商业项目有IBM Tivoli, Sonic MQ and Cisco SESM等 可到Jetty网站 http:/...转载 2022-01-19 14:43:47 · 592 阅读 · 0 评论 -
认证模式之Spnego模式
Spnego模式是一种由微软提出的使用GSS-API接口的认证模式。它扩展了Kerberos协议,在了解Spnego协议之前必须先了解Kerberos协议,Kerberos协议主要解决身份认证及通信密钥协商问题。它大致的工作流程例如以下:①client依据自己username向密钥分发中心KDC的身份认证服务AS请求TGS票证。②AS生成一个TGS票证、查询相应用户的password,然后通过用户password将TGS票证加密,响应给client。③client通过用户password解密TGS票转载 2022-01-19 11:34:39 · 1850 阅读 · 1 评论 -
hadoop集群不停服上线 hadoop router
hadoop router 是解决单个NS 瓶颈的组件。原创 2021-04-12 15:07:44 · 237 阅读 · 0 评论 -
Hadoop Router上线过程 Cannot get available namenode 问题分析
在说明这个问题之前,梳理一下router内部的工作流程。router 内部请求转发流程上图说明如下:第1步:通过访问的路径找到挂载点对应的NameSpace(NS)第2步:通过NS,找到对应的NN第3步:NN的信息存储在缓存中StateStore第4步:StateStore启动时,会先加载ZK里面的数据,并且开启一个线程,每隔1分钟去ZK获取最新的记录第5步:在StateStore启动之后,后启动NamenodeHeartbeatService服务,这个服务每个NN 对应一个线程,线程每隔5原创 2021-04-12 11:22:30 · 798 阅读 · 0 评论 -
window本地运行hadoop 测试用例 failed to create symlink
解决办法:以管理员身份运行IDEA原因:只有管理员可以创建符号链接原创 2020-11-03 11:33:52 · 1001 阅读 · 1 评论 -
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/St
背景window运行hadoop测试用例报错:java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/St解决办法下载链接: https://pan.baidu.com/s/1nFMHk1NIbpvXwqZ7rq0o6A 提取码: fagn覆盖本地的HADOOP_HOME路径下bin目录所有文件...原创 2020-11-03 11:05:04 · 159 阅读 · 0 评论 -
hdfs 元数据理解
HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。一、NameNodeHDFS metadata主要存储两种类型的文件1、fsimage记录某一永久性检查点(Check转载 2020-10-13 10:50:14 · 984 阅读 · 0 评论 -
NameNode启动过程耗时详细剖析
NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpo...转载 2020-09-15 18:59:41 · 694 阅读 · 0 评论 -
window10 下编译hadoop2.9.2
Win7下编译hadoop一、解压源码Hadoop2.7.7 源码下载:hadoop-2.7.7-src.tar.gz源码下载 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common...原创 2020-08-11 16:29:47 · 351 阅读 · 0 评论 -
清理指定路径日期的数据
keepday=$1cat database.txt |while read datado echo "$data" hdfs dfs -ls $data |awk '{printf "%s\n", $8}' | while read line do if [ $line ]; then old_version=$(hdfs dfs -ls $line | awk --re-interval -v day="$keepday" 'BEGIN{ five_days_ago原创 2020-07-10 15:24:23 · 150 阅读 · 0 评论 -
yarn 运行环境添加外部jar
在提交命令添加参数:–conf spark.yarn.jars=local:/opt/cloudera/parcels/CDH/lib/spark/jars/,local:/opt/cloudera/parcels/CDH/lib/spark/hive/:/opt/cloudera/parcels/CDH/lib/hive/lib/*spark-submit --class ezviz.bigdata.spark.OfflineJob --master yarn --deploy-mode cluster原创 2020-06-29 14:50:02 · 669 阅读 · 0 评论 -
IT架构分层描述
IT架构九重天——IT架构分层描述楼主最近开始学习云计算,这东西有多火或者这是怎么样的一个大趋势相信大家都不言而喻了。没什么练手条件下当然先把理论知识补充补充,所以找身边的大牛们推荐了一本入门级别的书。你得先有那么一点基础才能一步步往上不是嘛,就跟你得先有那么几个英雄才能打排位,然后从青铜到白银,再到黄金,接着晋级铂金、钻石….最后到达最强王者,然后就下一个赛季了。啊,不好意思,扯远了,最近有点...转载 2020-04-08 11:10:47 · 3777 阅读 · 1 评论 -
云计算四层分——IaaS、PaaS、SaaS、DaaS
云计算四层分——IaaS、PaaS、SaaS、DaaS云计算通俗来说就是输入/输出和计算不在一个主机上。计算要用到计算设备,计算设备一般是指CPU、内存和硬盘,输入/输出设备一般是指键盘、鼠标、显示器、耳机、音响、话筒等外设。而我们的个人计算机是使用主板将这些东西连接到一起来协调工作。一个软件在执行以完成某项任务的时候,如果用到的计算设备和输入/输出设备不是通过主板连接,而是通过网络连接,那么...转载 2020-04-08 10:21:52 · 12004 阅读 · 0 评论 -
1.认识大数据
认识大数据大数据是什么 ?通过下面这个例子,认识下大数据是怎么来的(仅个人想法)。为什么需要spark?原创 2019-09-29 11:42:09 · 170 阅读 · 0 评论