![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
月正明
JAVA WEB,大数据
展开
-
PowerBI下载安装
1.下载https://powerbi.microsoft.com/zh-cn/desktop/2.安装3.使用3.1连接mysql获取数据源需要安装相关组件下载组件,网址为https://dev.mysql.com/downloads/file/?id=412152安装,重启PowerBI,再次远程连接mysql...原创 2021-09-28 11:08:58 · 1547 阅读 · 0 评论 -
File encoding has not been set, using platform encoding GBK, i.e. build is platform dependent
问题:编译打包(mvn clean install)文件总是为GBK格式,不是UTF-8格式原因分析:使用了默认编码格式GBK解决方案:pom文件添加配置<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding></properties>执行结果:...原创 2021-01-25 20:03:20 · 1924 阅读 · 0 评论 -
CDH6.2.0集成Phoenix
官方文档:phoenix_installationParcel 下载地址:https://archive.cloudera.com/phoenix/6.2.0/parcels/csd 下载地址:https://archive.cloudera.com/phoenix/6.2.0/csd/PHOENIX-1.0.jar1.parcel配置/opt/cloudera/parcel-repo目录PHOENIX-5.0.0-cdh6.2.0.p0.1308267-el7.parcel原创 2020-11-13 14:42:52 · 614 阅读 · 0 评论 -
SpringBoot+MyBatis+Phoenix整合实践
1.项目工程结构2.pom依赖配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.ap原创 2020-11-13 14:11:44 · 1338 阅读 · 0 评论 -
如何用chmod设置文件权限
Unix中的文件和目录可能具有三种权限:读取(`r“),写入(`w')和执行(`x')。 对于以下三种类别的用户,每个许可可以是“打开”或“关闭”:文件或目录所有者; 与所有者在同一组中的其他人; 和所有其他。1.文件要更改文件的模式,请使用chmod命令。 一般形式是 chmod X @ Y file1 file2 ...其中:X是字母“ u”(对于所有者),“ g”(对于组),“ o”(对于其他人),“ a”(对于所有;即对于“ ugo”)的任意组合; @是添加权限的“...原创 2020-06-16 09:30:38 · 2774 阅读 · 0 评论 -
Impala服务:unable to find SASL plugin: PLAIN
问题:集群新增2个节点后,impala服务运行异常E0601 14:33:03.811748 4578 query-state.cc:424] 484462dbbe376aef:2da730b400000000] Cancelling fragment instances due to failure to reach the coordinator. (ReportExecStatus() RPC failed: Invalid argument: Client connection negoti原创 2020-06-02 10:33:17 · 1213 阅读 · 1 评论 -
Impala使用的端口
组件 服务 端口 访问需求 备注 Impala Daemon Impala Daemon Frontend Port 21000 外部 被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动 用于传递命令和接收结果 Impala Daemon Impala Daemon Frontend Port 21050 外部 被使用 JDBC 或 Cloudera ODBC 2.0 及以上驱动的诸如原创 2020-06-02 09:56:37 · 2407 阅读 · 0 评论 -
CDH6安装部署ES服务
1.制作ES的parcel包和csd文件参考:https://blog.csdn.net/weixin_38023225/article/details/1064675482.build-csd下的 ELASTICSEARCH-1.0.jar 复制到 /opt/cloudera/csd]# cp /root/github/cloudera/elasticsearch-parcel/build-csd/ELASTICSEARCH-1.0.jar /opt/cloudera/csd3.将Par原创 2020-06-01 11:43:10 · 1742 阅读 · 3 评论 -
CDH6.2.x制作Elasticsearch的Parcel包和csd文件
1.配置Java,maven等环境变量]# java -versionjava version "1.8.0_211"Java(TM) SE Runtime Environment (build 1.8.0_211-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.211-b12, mixed mode)]# mvn -versionJava HotSpot(TM) 64-Bit Server VM warning: ignoring optio原创 2020-06-01 10:38:46 · 2574 阅读 · 1 评论 -
CDH6.2.x制作Livy的Parcel包和csd文件
1.配置Java,maven等环境变量]# java -versionjava version "1.8.0_211"Java(TM) SE Runtime Environment (build 1.8.0_211-b12)Java HotSpot(TM) 64-Bit Server VM (build 25.211-b12, mixed mode)]# mvn -versionJava HotSpot(TM) 64-Bit Server VM warning: ignoring optio原创 2020-06-01 10:26:11 · 1167 阅读 · 0 评论 -
Cloudera Manager企业大数据平台集群增加节点实践
准备工作1.主机域名配置#第一台服务器上执行 echo "172.31.30.81ptx-bigdata1" >> /etc/hosts echo "172.31.27.167ptx-bigdata2" >> /etc/hosts echo "172.31.31.127 ptx-bigdata3" >> /etc/hosts echo "172.31.28.41 ptx-bigdata4" >> /etc/host...原创 2020-05-18 09:25:34 · 819 阅读 · 0 评论 -
企业大数据CDH管理平台搭建方案
1 基本介绍1.1 概述Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等。所有发行版都是基于Apache Hadoop衍生出来的,产生这些版本的原因,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布和销售。收费版本:收费版本一般都会由新的特性。国内绝大多数公司发行的版本都是收费的,例如Intel发行版本,华为发行版本等。免费版本:不收费的版本...原创 2020-05-14 20:06:35 · 2919 阅读 · 0 评论 -
Hue和Oozie时钟设置
CDH安装hue,oozie.通过hue 创建oozie任务,提交任务运行的时间和hue上显示的时间会不同于系统当前时间。问题是由于oozie,hue时区与系统时区不同1.修改oozie时区重启oozie服务2.修改hue时区重启hue服务...原创 2020-03-12 21:31:46 · 431 阅读 · 0 评论 -
集群时间同步设置
1、环境准备1)timedatectl查看时间各种状态:[ptxbd@ptx-bigdata2 etc]$ timedatectl Local time: Thu 2020-03-12 13:00:55 UTC Universal time: Thu 2020-03-12 13:00:55 UTC RTC time: Thu 2020-03-12 13:0...原创 2020-03-12 21:18:37 · 552 阅读 · 0 评论 -
[CDH6] Oozie web console is disabled 问题解决
1.问题:2.问题原因:缺少ExtJS2.2包3.问题解决:1)下载ExtJS2.2包下载地址:http://archive.cloudera.com/gplextras/misc/ext-2.2.zip2)上传服务器并解压[ptxbd@ptx-bigdata2 libext]$ pwd/opt/cloudera/parcels/CDH-6.2.0-1.cdh6...原创 2020-03-11 10:24:13 · 669 阅读 · 0 评论 -
Hue+Oozie执行脚本报错信息汇总
问题:用sqoop从DB导入数据到hdfs报错:Error: java.io.IOException: SQLException in nextKeyValue问题原因:Sqoop在导入MySQL数据时遇到Timestamp列为0000-00-00 00:00:00报错解决方案:在JDBC连接后加上?zeroDateTimeBehavior=convertToNull如:j...原创 2020-03-10 16:31:52 · 1160 阅读 · 0 评论 -
Oozie执行shell脚本导入数据到hdfs权限问题
问题:tool.ImportTool: Import failed: org.apache.hadoop.security.AccessControlException: Permission denied: user=yarn, access=WRITE, inode="/user/yarn":hdfs:supergroup:drwxr-xr-xCaused by: org.apach...原创 2020-03-10 16:22:31 · 400 阅读 · 0 评论 -
Linux本地上传文件都hdfs问题:No such file or directory
问题:Linux本地上传文件都hdfs报错put: `sqoop_import.sh': No such file or directory问题原因:解决方案:原创 2020-03-10 15:09:55 · 4954 阅读 · 0 评论 -
Yarn基本架构(待更新)
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成原创 2019-09-20 17:57:54 · 69 阅读 · 0 评论 -
MapReduce之ReduceTask详细工作机制(待更新)
几个阶段:Copy阶段,Merge阶段,Sort阶段,Reduce阶段原创 2019-09-20 17:56:18 · 177 阅读 · 0 评论 -
Hadoop在YARN上运行案例卡死
问题在本地环境运行模式,运行案例(pi/grep/wordcount)都是OK的在伪分布式运行模式,运行上述案例,直接卡死[root@master-node sbin]# start-dfs.sh --启动HDFS集群[root@master-node sbin]# start-yarn.sh --启动YARN集群[root@ma...原创 2019-09-04 23:17:28 · 3416 阅读 · 0 评论 -
编写集群分发脚本xsync
1.scp:secure copy 安全拷贝(1)scp定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)(2)案例实操(a)将master-node中/opt/module目录下的软件拷贝到slave-node1上。[caimh@master-node ~]$ scp -r /opt/module/* caimh@sla...原创 2019-09-23 19:11:07 · 765 阅读 · 0 评论 -
HDFS-HA高可用集群配置
1 HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群 NameNode机...原创 2019-09-25 19:27:15 · 513 阅读 · 1 评论 -
HDFS-HA自动故障转移失效
1 集群配置与规划HDFS-HA自动故障转移配置参考:https://blog.csdn.net/weixin_38023225/article/details/101346493集群规划 master-node slave-node1 slave-node2 NameNode JournalNode DataNode ZK ...原创 2019-09-26 08:51:31 · 844 阅读 · 0 评论 -
YARN-HA配置
1 介绍ResourceManager(RM)负责跟踪群集中的资源,并调度应用程序(例如MapReduce作业)。在Hadoop 2.4之前,ResourceManager是YARN群集中的单点故障。高可用性功能以“活动/备用ResourceManager”对的形式添加了冗余,以消除此单点故障。2 YARN-HA工作机制2.1 官方文档https://hadoop.apache.o...原创 2019-09-26 09:46:30 · 1172 阅读 · 0 评论 -
MapReduce之Shuffle详细工作机制(待更新)
Mapreduce确保每个reducer的输入都是按key排序的。系统执行排序的过程(即将mapper输出作为输入传给reducer)称为shuffle。原创 2019-09-20 17:54:36 · 136 阅读 · 0 评论 -
MapReduce之MapTask详细工作机制(待更新)
几个阶段:Read阶段,Map阶段,Collect阶段,Spill阶段,Combine阶段原创 2019-09-20 17:53:02 · 117 阅读 · 0 评论 -
案例:Shell定时采集数据至HDFS(待更新)
需求背景周期性上传文件至HDFS技术分析HDFS SHELL: hadoop fs -put //满足文件上传,不能满足定时,周期性传入Linux crontab: crontab -e 0 0 * * * * /shell/uploadFile2Hdfs.sh //每天凌晨12:00执行一次实现流程代码实现...原创 2019-09-10 09:35:27 · 715 阅读 · 0 评论 -
HDFS客户端操作(win10)
搭建开发环境1)拷贝编译后的hadoop jar包到非中文路径hadoop源码编译参考:https://blog.csdn.net/weixin_38023225/article/details/100576751也可直接下载:https://download.csdn.net/download/weixin_38023225/116929852)配置HADOOP_HOME环境变量...原创 2019-09-10 09:19:47 · 626 阅读 · 1 评论 -
Win10x64编译Hadoop2.7.4源码包
目录编译需求环境准备JDK安装(1.8)Maven安装(3.5.2)Findbugs(3.0.1)CMake安装(3.7.0)Protobuf安装(2.5.0)ZLIB安装GIT安装(2.17)window 10 sdk下载和安装VS2015安装(社区版)源码编译编译错误解决编译问题编译需求-------------------...原创 2019-09-06 17:32:41 · 1539 阅读 · 0 评论 -
Win10环境安装Protobuf2.5.0
安装包下载下载地址:https://github.com/protocolbuffers/protobuf/releases/tag/v2.5.0 protobuf-2.5.0.tar.gz protoc-2.5.0-win32.zip安装1.解压protobuf-2.5.0.tar.gz 和 protoc-2.5.0-win32.zip2.将protoc-2.5.0...原创 2019-09-06 13:01:17 · 2272 阅读 · 0 评论 -
HDFS的Block块为什么设置为128M
这个主要是磁盘寻址时间和数据传输时间决定的。目前,我们磁盘普遍寻址时间是10ms,磁盘的传输速率普遍为100MB/s通过验证,当磁盘寻址时间为数据传输时间的1%的时候,状态是最佳的。通过计算最佳传输时间=10ms/0.01=1s,进一步计算出Block块大小=1s*100MB=100MB,而我们磁盘block块的大小都是2^n倍所以最合适的大小就是128MB....原创 2019-09-06 09:22:42 · 597 阅读 · 0 评论 -
HDFS优缺点
优点1.高容错性1)数据自动保存多个副本。它通过增加副本的形式,提高容错性。2)某一个副本丢失后,它可以自动恢复。2.适合大数据处理1)数据规模:GB,TB,甚至PB级别数据2)文件规模:能够处理百万规模以上是文件数量,数量相当之大。3.流式数据访问,它能保证数据的一致性。4.可构建在廉价机器上,通过多副本机制,提高可靠性。缺点1.不适合低延时数据访问,比如...原创 2019-09-06 09:01:35 · 278 阅读 · 0 评论 -
Hadoop运行模式
本地运行模式1 官方grep案例[root@master-node hadoop-2.7.4]# mkdir input[root@master-node hadoop-2.7.4]# cp etc/hadoop/*.xml input/[root@master-node hadoop-2.7.4]# hadoop jar share/hadoop/mapreduce/hadoop-...原创 2019-09-03 22:40:09 · 90 阅读 · 0 评论 -
Hadoop运行环境搭建
目录虚拟机环境准备安装JDK安装Hadoop虚拟机环境准备1 克隆虚拟机[root@master-node ~]# vim /etc/udev/rules.d/70-persistent-net.rules --修改克隆虚拟机网卡# PCI device 0x8086:0x100f (e1000)SUBSYSTEM=="net", ACTION=="add",...原创 2019-09-03 18:30:48 · 104 阅读 · 0 评论 -
Hadoop问题java.net.NoRouteToHostException: 没有到主机的路由
问题启动Hadoop集群(HDFS集群和YARN集群),查看各个节点启动状态都已经启动成功,过了一段时间之后,发现从节点的DataManager都挂掉了,查看从节点日志,发现报错了“Caused by: java.net.NoRouteToHostException: 没有到主机的路由”错误信息如下:2019-09-02 11:13:29,796 FATAL org.apach...原创 2019-09-02 12:01:52 · 3594 阅读 · 0 评论 -
解决启动Hadoop集群,从节点没有启动(DataNode等)
问题在集群主机点启动HDFS集群和YARN集群之后,查看各个节点启动情况:主节点全部启动成功,从节点启动失败[root@master-node ~]# jps6432 Jps5427 NameNode5811 ResourceManager5531 DataNode5917 NodeManager[root@slave-node1 ~]# jps2244 Jps...原创 2019-09-02 11:32:22 · 14420 阅读 · 7 评论 -
Linux环境编译Hadoop源码包
hadoop2.7.4centos6.51.准备的资料源码根目录下有个BUILDINT.txt,打开即可看见里面关于编译hadoop的一些环境要求/opt/software/ 存放软件安装包/opt/module/ 存放解压包2.安装JDK(1.8)[root@master-node software]# tar -zxvf jdk-8u211-linux-x6...原创 2019-09-01 17:05:58 · 365 阅读 · 0 评论 -
MapReduce程序运行模式
本地运行模式1.mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行2.而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上3.怎样实现本地运行?程序不要带集群配置文件本质是程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数4.本地模式非常...原创 2019-09-10 15:48:30 · 597 阅读 · 0 评论 -
HDFS读写流程
HDFS写流程HDFS读流程原创 2019-09-12 10:52:33 · 96 阅读 · 0 评论