- 博客(70)
- 资源 (15)
- 收藏
- 关注
原创 Hive复合类型操作
概览hive目前支持4种复合类型array_type : ARRAY < data_type > map_type : MAP < primitive_type, data_type > struct_type : STRUCT < col_name : data_type [COMMENT col_comment], ...> union_type : UNIONTYPE < data_type, data_type, ..
2020-07-04 17:26:22
465
1
原创 安装配置Kudu
背景Kudu安装起来,看似不难,配置文件也就那么4个,每个配置文件需要配的配置也就两三个,但是很容易出现问题。我的Kudu安装也是历经了各种艰辛,才勉强起来的,中间发生的错误,忘了记录。现把中间需要注意的步骤做个记录备忘。下载kudu包https://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/5.12.2/RPMS/x86_64/Name Last Modified Size Parent Directory kudu-
2020-06-26 14:49:16
1381
原创 数据结构与算法-堆排序-python实现
def heap_sort(arr): max_index = len(arr) - 1 # 构建大顶堆,0位置上为最大值 heap_swift(arr, 0, max_index) # end_index 为每次得到最大值后,最大值应该放的位置 for end_index in range(1, max_index + 1).__reversed__(): # 将得到的当前0位置上最大值,交换到它应该放的位置 swap_elem(a...
2020-06-22 18:35:03
175
原创 数据结构与算法: 希尔排序-python实现
# 希尔排序总体框架# 1 依次给定gap值,将数组分割成若干子序列数组,子序列数组相邻元素在原数组中索引值是以gap大小递增的, 这样共有gap个子序列数组# 2 将每一个子序列数组按照插入排序方式排序# 3 不断缩小gap值,每次得到新的gap值时,按步骤1,2再次对数组进行排序# 4 等到gap=1,排完序后,原数组必然有序def shell_sort(arr): assert isinstance(arr, list) arr_length = len(arr) .
2020-06-22 17:17:10
183
原创 数据结构与算法: 快速排序-python实现
def quick_sort(arr, low, high): pivot_index = partition_arr(arr, low, high) # arr = [2, 15, 8, 28, 90, 33, 14] if low < pivot_index - 1: quick_sort(arr, low, pivot_index - 1) if pivot_index + 1 < high: quick_sort(ar..
2020-06-22 17:03:38
179
原创 定位高占CPU的java代码
定位进程id使用top命令找出占cpu高的java进程[bigdataservice@bjxg-bd-slave12 bigdataservice]$ toptop - 17:54:51 up 325 days, 2:49, 2 users, load average: 3.70, 3.91, 3.88Tasks: 290 total, 1 running, 289 sleeping, 0 stopped, 0 zombie%Cpu(s): 19.6 us, 1.2 sy
2020-06-15 18:12:30
340
原创 如何让Hive表支持json数据
概述根据hive官方文档,主要用到了hive内置JsonSerDe类JsonSerDe 适用版本:Hive 0.12and later.要使用.JsonSerDe,需要添加相应的jar包ADD JAR /usr/lib/hive-hcatalog/lib/hive-hcatalog-core.jar; # 我的服务器在该路径下不存在这个jar,需要寻找一番CREATETABLEmy_table(a string, bbigint, ...)ROW FORMAT SERD...
2020-05-30 12:05:48
1104
转载 Linux下使用timedatectl命令时间时区操作详解
timedatectl命令对于RHEL / CentOS 7和基于Fedora 21+的分布式系统来说,是一个新工具,它作为systemd系统和服务管理器的一部分,代替旧的传统的用在基于Linux分布式系统的sysvinit守护进程的date命令。 timedatectl命令可以查询和更改系统时钟和设置,你可以使用此命令来设置或更改当前的日期,时间和时区,或实现与远程NTP服务器的自动系统时钟同步。 在本教程中,我要讲的是,如何在你的Linux系统上,通过使用来自于终端使用timedatec
2020-05-27 11:11:07
611
原创 CentOS 7 安装 Influxdb & Grafana
下载安装包# 下载安装包命令wget https://dl.influxdata.com/influxdb/releases/influxdb-1.8.0.x86_64.rpm# 下载过程信息--2020-05-24 16:37:25-- https://dl.influxdata.com/influxdb/releases/influxdb-1.8.0.x86_64.rpmResolving dl.influxdata.com (dl.influxdata.com)... 13.3.
2020-05-24 16:53:13
739
原创 Druid.io 查询分时段指标
{ "aggregations": [ { "fieldName": "unique_user", "type": "thetaSketch", "name": "new_user", "isInputThetaSketch": false, "size": 16384 } ], .
2020-05-22 17:13:01
479
原创 Win10环境下编译Flume源码
环境要求:jdk8maven3.5.4+git bash编译准备给本地的maven settings加上一些仓库的mirror, 加速编译过程中依赖的下载 <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/g...
2020-05-22 15:31:53
317
原创 Spark源码编译: 在IDEA中运行 spark-examples 模块源码
问题描述 当spark源码编译完成,并导入IDEA后,打开spark-examples子模块,试图运行其中的 SparkPi 程序进行测试,发现各种报错,这些错提示spark依赖或者scala依赖的各种类找不到。为了解决这些问题,花了好几天时间,查了各种博客,大部分都解决不了我的问题 (网上博客等资料十有八九都是互相抄袭,来自亲身实践的很少,有真知灼见的就更少了)。大海捞针,也发现有一两篇,讲的虽不详细,但是提供了方向。指导思想 需要为 spark-example 子模块提...
2020-05-21 18:50:39
1537
原创 Druid SQL:列名和sql关键字重名解决办法
问题描述由于历史遗留,设计druid schema 的时候,metrics里面设计了一个count指标,列名也定为了count。在使用sql查询该数据源时,由于count时sql 函数,对该数据源的count进行操作时,如果不采取措施,导致无法使用该字段。问题演示现在需要对count列进行求和运算,如果和其他普通字段一样,不进行特殊处理,sql语句如下select SUM(share_count_sum) as share_count,SUM(count) as pv,topic_id f
2020-05-21 15:50:23
2029
原创 编译spark源码: 将spark源码导入IDEA
1 下载好spark源码,解压2 打开IDEA --> 顶部工具栏【File】 --> 【New】 --> 【Project from ExistingSources】3 为该项目配置好Maven,而不是默认的IDEA自带的Maven4 先选中这个Project,鼠标右键 ---> 【Maven】 --> 【Generate Sources and Update Folders】5 顶部工具栏【Build】 --> 【Build Project】,等...
2020-05-19 20:13:35
322
原创 mysql自增长id数据表迁移到其他服务器
背景 由于业务调整,需要将某个服务机器上的几个表原样迁移到其他服务节点,不能改变这些表的结构,数据和功能特性。其中一个表为自增长id的数据表,无法像其他表那样直接原样导入导出。此时,需要采取一些措施,间接地达到我们的目标。导出难点 由于数据表是自增长的索引id, 经过长时间的使用,必然有一系列的插入和删除,其id早已经不是严格连续的,会存在很多相邻id,他们是断裂衔接的, 比如一张表,先插入了6条数据,mysql为数据表生成的id是1,2,3,4,5,...
2020-05-12 15:13:38
2962
原创 CDH环境故障:linux jdk环境部署不规范导致部署spark2 gateway失败,spark2-submit无法执行
问题概述 在CDH中离线部署完spark2之后,执行spark2-submit命令测试部署的spark2是否可用,结果立即提示请安装spark gateway角色。说明我的spark2并未成功部署,或者它依赖的环境没有满足问题详情问题出现如图,在spark2集群页面,选择【部署客户端配置操作】一段时间后,部署崩溃!查看日志查看崩溃的日志,spark2部署的每个客户端有2份日志,1份stout,1份sterrstout日志sterr日...
2020-05-12 09:17:29
938
原创 Kafka反解域名导致发消息失败:java.io.IOException: Can't resolve address: kafka-05:9092
背景 由于项目需求,需要跨集群向kafka发数据,发数据程序所在集群没有配置目标kafka集群的主机名,所以只能使用目标集群的ip地址。经测试两个集群网络通信是没有问题的。但是发kafka数据程序运行一直报错,显示无法解析主机名。问题详情由于跨集群发kafka数据,程序运行所在集群和目标kafka集群属于2个不同集群。为方便描述,程序运行所在集群简称为A集群,目标ka...
2020-05-08 11:10:05
2668
原创 CDH环境故障: HDFS各服务进程状态未知,监控指标图表无数据
导语 cdh是管理大数据组件的利器,他能帮助我们很好的监控管理各大数据进程服务。但在我们使用的过程中,不小心,也会遇到一些问题。这时需要我们想办法去解决它。 本篇主要记录我遇到的一个CDH平台问题,就是突然有一天,我的大数据组件服务启动后,各进程显示灰色的问号图标,并提示运行状态未知。并且监控图标全都无法显示 以为是...
2020-05-04 09:59:18
4687
原创 CDH启动DataNode失败
搭建完CDH集群后,发现有一个DataNode启动后马上又挂掉,反复几次都是如此,查看角色日志java.net.BindException: Problem binding to [cdh01:50020] java.net.BindException: Address already in use; For more details see: http://wiki.apache.org...
2020-05-03 16:02:40
1238
原创 Linux环境搭建:NTP时间同步
导语 大数据有不少分布式组件,是需要各个节点保持时间同步的,比如hbase,cdh管理平台等。本文重点介绍centos7环境下,ntp服务的搭建。核心过程 需要做时间同步的各个节点,选取一台作为主节点,其他从节点都向这台主节点做时间同步,而主节点向网络标准时间做同步。详细步骤各节点安装ntp,ntpdate服务执行如下两个命令[roo...
2020-05-03 12:18:26
922
原创 执行start-yarn.sh脚本,NodeManager都启动成功,ResourceManager没有启动
在启动hadoop集群的yarn进程时,执行sbin/start-yarn.sh脚本,发现Datanode进程都起来了,维度ResouceManager进程没起来。后来执行 sbin/yarn-daemon.sh start ResouceManger单独启动这个进程,也没有成功。难道网络端口不通?仔细排查启动脚本start-yarn.sh,看看是不是什么环境没具备,...
2020-04-06 12:48:32
5752
原创 hdfs datanode进程没法启动
刚搭建的hadoop集群,文件系统有点错乱,然后一顿整之后,datanode没法启动了。没办法,只能对hdfs集群文件系统进行格式化了,但是格式化并不是一个简单的命令就完事,需要彻底清除前面操作留下的任何痕迹,否则datanode还是无法启动!hdfs重新格式化步骤sbin/stop-all.sh# 清理hadoop.tmp.dir目录rm -rf /home/hadoop/ap...
2020-04-06 00:08:38
365
原创 Hadoop: hdfs 块异常检查
在hdfs上创建了一个文件[hadoop@hdp02 ~]$ echo "hadoop file" > hadoop01.txt[hadoop@hdp02 ~]$ hadoop fs -mkdir /hadoop[hadoop@hdp02 ~]$ hadoop fs -put hadoop01.txt /hadoop/[hadoop@hdp02 ~]$ hadoop fs -ls...
2020-04-05 23:44:04
738
原创 Hadoop: datanode连接namenode 9000端口报错 NoRouteToHostException: No route to host
hadoop集群搭建好后,在datanode节点上执行hadoop fs命令,报下面的错[hadoop@hdp02 ~]$ hadoop fs -ls /ls: No Route to Host from hdp02/192.168.60.102 to hdp01:9000 failed on socket timeout exception: java.net.NoRouteToHos...
2020-04-05 21:55:46
1027
2
原创 大数据之Zookeeper(一):zookeeper集群搭建
下载安装包进入zookeeper官网https://zookeeper.apache.org/,进入download页面Getting StartedStart by installing ZooKeeper on a single machine or a very small cluster.Learn aboutZooKeeper by reading the docume...
2020-04-04 19:52:06
278
原创 CentOS 软链接实战记录
虽然很早就明白软连接的作用以及使用场景,但毕竟是偏向开发的技术,不会去经常在服务器上创建文件,并为之配上软连接,如果临时需要创建,一时还想不起来参数该如何写。这次决定做个记录软连接的作用 给已经存在的文件,创捷一个快捷访问方式,比如一个处于很深层次的文件或者目录,每次访问的时候,写上绝对全路径,是很要命的,如果有快捷访问方式,是不是就爽很多了?是的! ...
2020-04-04 18:51:21
2595
1
原创 linux环境搭建(三) 虚拟机克隆
导语 我们已经完美的创建好一台虚拟机,并为之安装好了操作系统和各种软件,而且精心配置了网卡IP,保证了他能够上网。现在他已经时一台合格的服务器了。但是当我们需要搭建集群时,我们时需要多台这样的虚拟机的。搭建好一台,已经这么费劲了,难道又要照着刚才那繁琐的过程,重来好几遍?不!不会的,有了VMware,我们无需这么笨笨的,因为Vmware为我们提供了虚拟机克隆功能。有了它我们无需再重...
2020-03-09 21:21:16
815
原创 电脑故障(一)台式电脑看网络直播屏幕黑屏
故障描述 某次晚上看网络直播课程时,电脑突然黑屏,显示无信号输入,但是有声音。我敲击键盘后,屏幕恢复,但是声音没了,需要再次进入直播,才有声音。接着,每过十几分钟,都出现这种现象,共有五六次。找电脑售后 售后判断,是屏幕休眠。 售后处理过程:找控制面板 --> 右上角【查看方式】点【大图标】 --> 【电源选项】,下图是电源选项主...
2020-03-09 12:23:14
4003
原创 Linux环境搭建(二) 在虚拟机上安装CentOS 7 64位系统并设置静态ip上网
操作系统安装上一篇博客讲的是虚拟机硬件的各种配置,包括cpu,内存和磁盘,还有网卡,一台电脑性能怎么样,这些硬件起到重要作用,这一篇是记录虚拟机最重要的软件——操作系统的安装。首先,回到VMware主界面,选择上一篇设置好硬件的虚拟机,我的是hdp01,如下图,点击【开启这此虚拟机】到这里,开始进入操作系统安装界面,注意,此时需要通过键盘的上下键选中【Install CentOS ...
2020-03-08 18:01:47
316
原创 Linux环境搭建(一)在VMware上创建虚拟机并设置网络模式配置
导引 多年前就搭建过虚拟机集群,现在换了电脑,需要重新搭建,以为自己之前搞过,应该不费吹飞之力就能拿下,结果还是和以前一样,一路搞一路坑。此刻方知好记性不如烂笔头的含义。不多说,从现在开始用文字记录下吧,避免以后淌同样的坑,浪费时间和生命首先是在VMware上创建虚拟机首先,点击VMware界面左上角【文件】,然后选择【新建虚拟机】选项,出现下面的引导界面接着,...
2020-03-08 17:02:29
795
深入理解Java虚拟机JVM高级特性与最佳实践
2013-05-16
最新完整W3CSchool教程
2013-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅