![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
muyingmiao
这个作者很懒,什么都没留下…
展开
-
clickHouse单机模式安装部署(RPM安装)
关于版本和系统的选择操作系统:Centos-7ClickHouse: rpm在安装,20.x安装前的准备CentOS7 打开文件数限在 /etc/security/limits.conf 这个文件的末尾加入一下内容:[hadoop@hadoop001 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131.原创 2020-11-13 17:28:32 · 2378 阅读 · 1 评论 -
10小时大数据:第10章-Hadoop3.x新特性
hadoop3.x概述 java版本的问题hadoop3.x新特性之common改进 shell脚本的重写,修bug加新特性,不兼容的都列出来了 过时的API删除了hadoop3.x新特性之HDFS改进 EC的使用,替换副本,省空间 支持两个以上的namenode 磁盘的datanode的平衡 多个服务之间默认端口发生了变化hadoop3.x...原创 2019-08-26 13:32:59 · 307 阅读 · 0 评论 -
windows 环境下,IDEA 开发HBase与Java连接hbase长时间无反应问题
1.本地环境hbase1.2.1错用了hadoop-core.jar,应该使用hadoop2版本的jar2.本地环境没有配置region Servers的host要现在hbase安装主机上的ect\hosts文件里加上主机ip和主机名,如下第一行所示。192.168.187.209 ubuntu001192.168.31.100 hadoop000#192.168.187.209 ...原创 2019-08-28 23:57:14 · 4176 阅读 · 1 评论 -
Zookeeper与Curator开发遇到的坑
做zookeeper clinet客户端开发,zookeeper使用如下版本:<zk.version>3.4.5-cdh5.15.1</zk.version>,curator-recipes使用3.3.0.,会报如下错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/cur...原创 2019-09-01 15:32:40 · 2181 阅读 · 0 评论 -
10小时大数据:第9章-前沿技术拓展Spark Flink Beam
吐槽MapReduce 开发起来爽不爽? 运行速度如何? 框架多样性?Spark特点 spark.apache.org 读懂英文介绍 speed ease of use generality runs everywhereSpark与Hadoop深入对比 这个对比好好看一下Spark开发语言及运行模式 学spa...原创 2019-08-26 13:31:44 · 169 阅读 · 0 评论 -
10小时入门大数据:第8章-Hadoop集成Spring的使用
在pom文件中添加maven依赖<dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-hadoop</artifactId> <version>2.5.0.RELEASE</versi...原创 2019-08-26 13:24:08 · 350 阅读 · 0 评论 -
HDFS和YARN的HA架构梳理
HDFS介绍HDFS由四部分组成,HDFS Client、NameNode(NN)、DataNode(DN)和Secondary NameNode(SSN)。 HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。HDFS HA的架构图1.DN同...原创 2019-08-19 16:44:03 · 296 阅读 · 0 评论 -
HDFS和YARN的HA集群搭建(Hadoop-2.8.1+Zookeeper-3.4.6)
一.软件版本组件名称 版本 备注即下载地址 Centos 7.2 (Final) 64-bit lsb_release -a 命令查看操作系统版本 file /bin/ls 命令查看操作系统位数 JRE "1.8.0_45" http://www.360sdn.com/Linux/2014/0610/3568.html Hadoop ...原创 2019-08-20 21:23:02 · 792 阅读 · 0 评论 -
10小时入门大数据:第1章-大数据概述
大数据概述· 大数据故事· 大数据背景· 大数据基本概念· 大数据设计到的技术· 大数据带来的技术挑战· 大数据带来的思维变革OOTB镜像文件和虚拟机的使用· 在虚拟机当中打开vmx虚拟文件就能导入虚拟机· 虚拟机设置内存需要8g,但是实验就4g就行,...原创 2019-08-26 11:36:39 · 189 阅读 · 0 评论 -
10小时入门大数据:第2章-初识Hadoop
Hadoop概述· hadoop名字,玩具命名· hadoop.apache.org· 包含的模块框架· common公用· hdfs分布式文件系统· yarn作业的调度和集群资源的管理· MapReduce基于yarn的并行的处理数据的框架· 介绍·...原创 2019-08-26 11:38:51 · 213 阅读 · 0 评论 -
10小时入门大数据:第3章-分布式文件系统
HDFS概述及设计目标什么是HDFS· hadoop实现了一个分布式文件系统四个单词的简写HDFS· 源于google的GFS· 论文发表于2003年,是GFS克隆版HDFS的设计目标· 非常巨大的分布式文件系统· 运行在普通廉价的硬件上· 易扩展,为用户提供性能不错的文件存储服务...原创 2019-08-26 11:55:27 · 159 阅读 · 0 评论 -
10小时入门大数据:第4章-分布式资源调度YARN
YARN产生的背景MapReduce1.x存在的问题:单点故障和节点压力大不易扩展只有一个job tracker,单点故障task tracker的RPC请求全都给job tracker,当task tracker多的时候job tracker不易扩展只支持MapReduce框架资源利用率和运维成本集群管理复杂,资源浪费等,Hadoop和Spark,MPI等分别的集群,不能共享,资源...原创 2019-08-26 12:18:29 · 156 阅读 · 0 评论 -
10小时入门大数据:第5章-分布式计算框架MapReduce
MapReduce概述 源于google论文 是google的克隆版 优点:海量数据离线处理,易开发,易运行 缺点:实时流式计算从wordcount案例说起mapreduce编程模型通过wordcount词频统计分析案例入门 wordcount:统计文件中每个单词出现的次数 需求:求wc1)文件内容小:shell2)文件内容很大: TB...原创 2019-08-26 13:05:17 · 240 阅读 · 0 评论 -
10小时入门大数据:第6章-Hadoop项目实战
用户行为日志概述 用户行为日志: 用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击…) 用户行为轨迹、流量日志 为什么要记录用户访问行为日志 网站页面的访问量 网站的黏性 推荐 日志产生的方式 nginx ajax 用户行为日志的内容 ip 账号 访问时间区域 客户端浏...原创 2019-08-26 13:12:45 · 470 阅读 · 0 评论 -
10小时入门大数据:第7章-Hadoop分布式集群搭建
Hadoop分布式集群搭建 参考如下文章https://blog.csdn.net/muyingmiao/article/details/99831312原创 2019-08-26 13:14:21 · 160 阅读 · 0 评论 -
YARN的Memory和CPU调优配置详解
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每...转载 2019-07-29 12:01:04 · 1422 阅读 · 0 评论