bigdata-大数据专栏
文章平均质量分 63
大数据专栏
我要用代码向我喜欢的女孩表白
已经换工作了,现在在某家安全公司打工。
又换工作了,现在在某金融公司打工
马上失业了,还要还房贷,要饿死了,大家可以私聊联系我,进行投喂,谢谢
展开
-
starRocks搭建
公司要使用新的大数据架构,打算用国产代替国外的大数据平台。所以这里我就纠结用doris还是starrocks,如果用doris,因为是开源的,以后就可以直接用云厂商的。如果用starrocks就得自己搭建,但是以后肯定会商业化,也是要收钱的。经过权衡,我选择了starrocks。用他来做数仓,代替我们以前cdh里的hive-presto或者kudu-impala。原创 2024-07-11 08:27:15 · 960 阅读 · 0 评论 -
Unable to start failover controller. Parent znode does not exist.Run with -formatZK flag to initial
CDH出现了这个问题,hdfs报错因为我之前重新安装了zookeeper,导致zookeeper中的namenode信息丢失。然后之前的name node 挂了,看角色日志是这个问题。原创 2024-06-12 10:27:23 · 159 阅读 · 0 评论 -
cdh中的zookeeper怎么配置zoo.cfg
你手动改了zoo.cfg目录是不会生效的,因为是cdh在管控,所以只能通过cdh修改。原创 2024-06-12 09:11:02 · 425 阅读 · 0 评论 -
elasticsearch自定义企业词典
我们中文分词用的是ik,但是ik只是对基本的中文词进行了分词,而对于企业或者人名没有进行分词。比如,我搜索中国平安,那么ik只能分成中国、平安如果这样,这肯定是不行滴!接下来,俺就教你,如何创建词典。原创 2023-03-08 18:24:12 · 1670 阅读 · 0 评论 -
es集群搭建
docker容器化部署es集群。原创 2023-01-28 18:17:33 · 875 阅读 · 2 评论 -
ubantu18.04搭建cdh6.3 (按照我的版本,百分之百搭建出来)
我以前用centos7搭建过十几遍cdh(生产,测试,客户,云上,poc,教学,虚拟机)今天试试ubantu搭建。cdh配置繁琐,但是组件安装超级方便,只需要配置一次,可使用绝大部分大数据组件,并且自带监控功能,组件配置都是一键自动依赖启动,在管理界面,配置所有组件,这就是他的方便。原创 2022-09-30 09:19:42 · 1591 阅读 · 3 评论 -
Clickhouse分享
Clickhouse是一款由俄罗斯百度yandex公司开源的一款,消耗cpu,不适合实时插入(毫米级),但是可以快速使用sql查询的引擎。查询最适合的是做实时分析(秒级),实时写入可以通过kafka缓存做批量写入,统计查询,列出的。原创 2022-09-28 13:59:08 · 1489 阅读 · 0 评论 -
spark集群搭建
spark有4种模式,单节点(没人用)这里主要搭建yarn和standalone原创 2022-09-27 10:26:47 · 1049 阅读 · 2 评论 -
大数据组件之Hbase(整体分享)
我记得我刚工作那年19年的春天,对hbase还是比较恐惧的,因为里面存储的是字节,后来我专门去当讲师,去学习,克服了恐惧,了解了原理,再后来在安全公司专门用hbase对他企业级的有了更多的理解。所以作为我最喜欢的库之一,写了很多文档,但是没有一个汇总,这篇就是我对hbase的汇总吧。作为一个组内分享使用,目的是,让同事们,看完之后能知道Hbase的前因后果,以及使用场景,选型时的瓶颈,以及能够使用。根据实际业务场景来,来了问题,先调研(选型组件),瓶颈,熟悉组件原理,安装与使用组件。原创 2022-09-09 17:28:39 · 1188 阅读 · 0 评论 -
大数据处理规范(选型测试),自用
用完时序数据库的时候,我悟了,车企每天2T的数据。让我感觉到,我以前的大数据就是随便处理着玩。有必要建立一套属于自己的数据处理规范的方法了。原创 2022-09-02 13:40:07 · 1166 阅读 · 0 评论 -
时序数据库太爽了TDengine3.0(tdengine和druid等性能对比)
另外建表语句,第一个必须为timestamp类型,他是以这个进行排序的,默认全部都帮你排序好了,用起来很舒服。满足外卖或者行车的相关地图。在地图上,我们需要获取电动车的路径,所以要知道他行走的时间。因为目前在做gps相关的,电动车里面有个终端,会不停的上报数据到后端,包括经纬度。于是选择了TDengine(和sql差距不大,唯一差距大的就是字段不一样)注意的坑就是,varchar(20)类型对应他的nchar(20)nchar(20)会直接占用20个空间。每天1w辆车,每5秒上报一次,数据量都过亿。....原创 2022-08-31 16:45:00 · 1892 阅读 · 0 评论 -
flink学习(未完成,待补充)
flink国内由巨头阿里推动,他是可以一条一条处理,而sparkStreaming必须集齐了一个batch他才会处理。要求非常高的处理速度,一条一条的要求,flink是首选。只用记住关键区别,spark是个很牛逼的项目,3.0后的spark支持了df格式,更牛逼。1.flink和sparkStreaming的区别。今天为了提高自己,整体学习一下flink。4.flink消费kafka。3.flink的安装集成。...原创 2022-08-29 10:37:40 · 258 阅读 · 0 评论 -
python连接presto
presto-python-client(官方版本,值得信赖)spark查询30G数据要6分钟(3台机器)内存差点搞爆。presto查询只用了30秒,只用了6G内存。原创 2022-08-24 21:57:33 · 758 阅读 · 0 评论 -
pyspark操作hive,操作kafka
2.安装pyspark(要与大数据平台spark版本保持一致,大数据平台我搭建的是cdh6,他的spark是2.4)原创 2022-08-24 09:41:05 · 660 阅读 · 0 评论 -
hive建表,与插入数据
固建立临时表(不分区),导入数据到临时表,创建分区表,通过【insert 分区表 select 临时表】 导入分区表。,需要通过insert parquet格式的表 select * textfile格式的表)存储格式用parquet,压缩数据,比orc差,查询一致,但是插入快(一致,他会把hdfs的文件copy到hdfs的hive表下。思路,hive导入分区表,只能通过临时表导入。准备数据,这种数据是textfile格式。数据是以,切分的 row format。这是解压后的,实际上的数据是.gz的。原创 2022-08-23 15:38:31 · 3396 阅读 · 0 评论 -
cube-studio配置镜像仓库并执行jar
名称【你harbor中建立的项目仓库名,当然,你也可以自己写一个名字,他不会使用此名称去连接harbor,仅仅是作为cube-studio中的仓库名称】在command中执行,docker中的命令,点击旁边的保存,将右边导航栏,拉在最上面,点击run。,从仓库到版本都要写上,我之前就在这里踩了坑,不写版本默认,拉取latest版本】我的镜像是提前已经全部构建好了,所有的配置,是独立进行配置的,所以不用写其他。"describe": "启动命令",在导航栏目录上选择,训练-》仓库,点击右边的+号,新增。...原创 2022-08-10 13:57:18 · 957 阅读 · 2 评论 -
独立机器连接cdh的spark集群,远程提交任务(绝对可以成功,亲测了n遍)
local就是用本地spark执行,除了测试以外基本不会用,而且如果使用yarn模式或者其他模式,在代码中使用了local,还会导致spark-submit提交时,spark不知道以yarn模式运行还是以local模式执行,导致报错。spark-submit yarn提交任务,他会去读取HADOOP_HOME目录下yarn-site.xml以及其他配置,然后,通过driver去连接配置所对应的工作节点(集群上的节点),然后执行任务,将日志同步给本节点。yarn模式 cdh的模式 ,也是国内最多的模式。..原创 2022-08-08 11:25:36 · 2084 阅读 · 2 评论 -
cdh6,使用oozie进行spark的jar任务调度
首先准备1个jar然后保证他丢到服务器,能用spark-submit /跑。首先你得有oozie和hue,安装好了,才行。原创 2022-08-06 15:04:12 · 877 阅读 · 0 评论 -
presto搭建,并配置hive
hive中的表字段不能为中文,如果为中文,presto会连接超时,但是hive本身以及hue或者spark都不会有影响。只有presto会连接超时英文开始正题:搭建什么的很简单。就是上面那个玩意,把我整傻了。因为他的报错原因就1个,超时。根本搜不到解决方案。谁能想到超时和中文字段有关?:)...原创 2022-08-04 23:57:39 · 1268 阅读 · 4 评论 -
spark往hive里读写数据
里面加1个这个,记得要先创建hadoop fs -mkdir /test。insert into 表 select * xxx。首先除了spark的依赖外要加上。然后将文件copy到项目的。原创 2022-08-04 14:10:59 · 595 阅读 · 0 评论 -
idea去掉spark的日志
尤其是这2个,要删除,否则会导致你设置的log4j.proerpties失效。1.直接在代码里设置日志级别,包含直接类中添加,和使用继承类(不推荐)spark默认会答应info,信息,他内置有log4j。3.添加log4j.prperties。创建一个这样的文件,名称也要一样。2.修改他的全局配置(不推荐)故,我们有3种方式解决。...原创 2022-08-04 09:44:00 · 1746 阅读 · 0 评论 -
CDH6的Hue打开出现‘ascii‘ codec can‘t encode characters
他说ascii(美国的编码),不能编译某个,他不认识的编码。所以说,我们改成utf-8编码就行。原创 2022-08-01 10:12:11 · 661 阅读 · 0 评论 -
cdh6打开oozieWeb页面,Oozie web console is disabled.
从页面上看,提示,enableinstalltheExtJSlibrary。上传他到linux的某个目录下,我放到是根目录/翻译要启用web,需要安装extjs的包。解压到cdh的oozie可识别目录。可以了,重启oozie都不需要。包地址,我是用csdn下载的。...原创 2022-08-01 09:57:13 · 194 阅读 · 0 评论 -
Oozie工作调度
最常用的调度是crontab,然后spring是schedule.而cdh平台里面的是oozie,可以在hue上操作,非常方便。原创 2022-07-28 14:55:10 · 119 阅读 · 0 评论 -
CDH集群集成外部Flink(改进版-与时俱进)
参考文章中,给出的cdh编译后的flink,已经下架,所以我们得想办法,编译。参考别人的文章不可怕,怕的是,不思进取,我们可以参考别人的文章,并且对不足之处,进行改进,将优秀的地方,进行学习,这样我们国家和民族的技术文章和社区,才能不断进步。可能有一天我不干程序员了,但是技术更新了,那时,我也希望,我的文章能被别人拿走,进行改进,造福开源社区。于是,此文章是基于参考文章为基础,进行的改进版。...............原创 2022-07-26 18:07:38 · 2188 阅读 · 4 评论 -
CDH集群使用spark作为hive查询引擎(实时查询)
Hive我们用来搭建数仓,对于大量数据以及离线数仓,可以满足,但是他不能满足实时查询的情况,如果这次客户来了个需求,不在我们统计分析的指标内。那你单独写SQL,然后通过mr底层,就不能立刻出结果,运行sql和统计将消耗大量时间。当然有多种方案(impala+kudu)(presto)都可以。我在CDH上使用,自己的虚拟机测试,避免搭建与启动内存过大,所以采用了spark。...原创 2022-07-26 10:21:23 · 1698 阅读 · 0 评论 -
cdh集群搭建(6.3)
6.3是社区的免费版,再往后是收费版,目前官方已经取消了地址,大家可以从我下面给出的地址中获取,云服务器12月到期,我不打算继续续费(一年2000,2MB下载速度,大家觉得下的慢,可以联系我,提供赞助,只要钱够,想要多快的服务器,阿里都提供)我打算全部删除,重新来一次,文档要修改的非常细,这样我以后就可以3小时内搭完。硬件要求官方建议,主节点内存32GB,2核心以上,从节点16GB,2核以上。文档老了,花了2天,解决完所有bug,先来一张图。虚拟机化测试,官方建议,社区版,,企业版最低要求,10G。....原创 2022-07-19 18:54:36 · 3981 阅读 · 23 评论 -
部署存稿(测试自用)
今天研发总监让我去挂硬盘,我确认了一下,客户如何使用,果然要去客户本地部署。为了部署方便,我在这里记下,需要修改的东西。2个配置文件:hbase.propertieshbase.master = 192.168.31.42:60000hbase.zk_port = 2181hbase.zk_quorum = 192.168.31.42system.properties(/data/docker_share服务器要创建这个目录)prefix.checked =/data/d原创 2021-10-02 09:07:23 · 148 阅读 · 0 评论 -
zookeeper搭建
1年前搭建的,但是是自己做的文档,没有发到网上,现在补发一下其中txt的内容解压zookeeper根目录为 /hadoop/zookeepercd /hadoop/zookeepermkdir zkDatacd confmv zoo_sample.cfg zoo.cfgvi zoo.cfg----dataDir=/hadoop/zookeeper/zkData----/hadoop/zookeeper-3.4.10启动cd /hadoop/zookeeperbin/zkSe原创 2021-09-24 11:24:58 · 130 阅读 · 0 评论 -
Hive安装详解
本文是我写的word文档-格式有点变化,请见谅跟着文档一定能装好,有什么问题 可以在下方留言。看到后,会进行解答1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/安装地址: https://archive.apache.org/dist/原创 2021-03-18 10:46:31 · 264 阅读 · 0 评论 -
SparkStreaming Restarting receiver with delay 2000 ms: Error connecting to 192.168.43.101:9999 java.
使用官方实例连接sparkStreaming出错,一直连接不上。一会儿能行,一会儿不行。1.防火墙我关闭了,service iptables stop查看service iptables status ,已经关闭了dead了还是报错2.我用的是centos7centos7,有2个防火墙。systemctl status firewalld 他运行的呢service firewalld stop 关闭了,成功他有毛病,为啥有2个防火墙...原创 2020-06-30 17:33:12 · 5765 阅读 · 0 评论 -
spark Mllib 决策树模型训练与效果检测
1.导包:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4..原创 2021-02-01 17:22:49 · 504 阅读 · 0 评论 -
IDEA 创建SparkSession 失败出现 DEFAULT_TINY_CACHE_SIZE
我使用的是spark2.1.0缺少Netty依赖<!-- https://mvnrepository.com/artifact/io.netty/netty-all --><dependency> <groupId>io.netty</groupId> <artifactId>netty-all</artifactId> <version>4.1.11.Final</version&g...原创 2021-01-30 08:56:04 · 3121 阅读 · 1 评论 -
sparkshell 连接hdfs通过read中的csv方法获取数据
spark和hadoop都全都配置了环境变量,开启了hadoop,并且关闭了防火墙var dataWithoutHeader=spark.read.csv("hdfs://192.168.48.101:8020/user/ds/covtype.data")hdfs://192.168.48.101:8020要与hadoop的core-site.xml保持一致hadoop中的core-site.xml成功:...原创 2021-01-26 14:02:41 · 684 阅读 · 0 评论 -
CDH6初始化cm数据库scm_prepare_database.sh失败
1.如果报错连接失败,那么还好,毕竟有个错误。那个很简单,弄个mysql-java的连接jar就行(去maven仓库下一个)mkdir /usr/share/javacp mysql-connector-java-5.1.47.jar /usr/share/javamv mysql-connector-java-5.1.47.jar mysql-connector-java.jar2.如果没有报错,但是发现没有建到库。那就笔记麻烦了,因为没有报错,你明着不知道原因。也可能是cdh公.原创 2020-08-18 14:27:15 · 2857 阅读 · 1 评论 -
配置单节点hadoop 边搭边写(含hadoop集群搭建)
最近在复习hadoop知识,自从开始干大数据,已经两年了。集群现在都有点生疏了,今天来回顾一下。cdh版本的后面会给原创 2020-06-17 19:10:29 · 416 阅读 · 0 评论 -
分享个CentOS镜像网址
http://vault.centos.org/6.9/isos/x86_64/原创 2020-06-15 17:12:40 · 150 阅读 · 0 评论 -
hive优化,以及sql优化
目的序新的一年又到了,该跳槽的跳槽了,那跳槽是不是又得面试了,面试中总会问些用不到的。或者有些用到的,但是却当时没说出来。后悔万分,之前被这种问题居然问懵逼了。天天上班写代码,忘记了理论知识。今天补充一下,hive优化。看了别人以图片的意思似乎很有趣,那么我也以图片形式吧...原创 2020-04-30 15:08:25 · 278 阅读 · 0 评论 -
yarn资源调度器的使用
比如公平调度器调度器的使用是通过yarn-site.xml配置文件中的yarn.resourcemanager.scheduler.class参数进行配置的,默认采用Capacity Scheduler调度器。如果我们要使用Fair调度器,需要在这个参数上配置FairScheduler类的全限定名:org.apache.hadoop.yarn.server.resourcemanager.s...原创 2020-04-16 11:18:42 · 183 阅读 · 0 评论 -
Docker 安装出现Version '18.06.0~ce~3-0~ubuntu' for 'docker-ce-cli' was not found
由于公司内部分离,所以现在为了完成新业务,但是却没有办法搭建服务器集群的问题。暂时业务使用单机。需要搭建flink,kafka,redis,es,mysql等镜像,打算使用docker镜像,但是之前没有接触过。在安装过程中出现这个问题。执行这一步sudo apt-get install docker-ce=5:18.09.4~3-0~ubuntu-bioni docker-ce-...原创 2020-04-09 16:31:08 · 3463 阅读 · 0 评论