大数据
wu大熊
chown -R bear flume
展开
-
pmql基本使用
Prometheus 通过指标名称(metrics name)以及对应的一组标签(labelset)唯一定义一条时间序列。指标名称反映了监控样本的基本标识,而 label 则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度过滤,聚合,统计从而产生新的计算后的一条时间序列。PromQL 是 Prometheus 内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在 Prometheus。原创 2023-10-07 17:36:50 · 401 阅读 · 0 评论 -
spark broken pipeline
随笔。hive写ck踩坑原创 2022-12-08 20:04:13 · 594 阅读 · 1 评论 -
记一次swagger卡死
现象:swagger请求接口一直转圈,浏览器卡死诊断:打开f12,接口有返回,24兆,200万条记录。说明后端返回数据过大,前端渲染不来。原创 2022-03-29 10:30:13 · 1788 阅读 · 0 评论 -
记一次java -jar的方式启动spark
因为测试环境没有yarn,也没有现成的spark集群权衡一下,不用spark-submit,使用java -jar挺轻量,啥都不用部署,所以我打了一个jar包,丢到服务器上面,问题来了1.要制定main函数所以java -jar不能用,改java-cp指定主类2.报各种 class not found直接把这个jar包往jre的ext里面一丢,啥都不缺,快得很。这样一个简陋但是能用的测试轻量环境就可以了。比起我以前一个人运维yarn,spar,hivek集群那些省了不少时间。...原创 2022-03-15 15:18:28 · 2669 阅读 · 0 评论 -
左移位以及于运算
Ps:python中bin可以展示2进制的数字bin(1<<0)‘0b1’ 这里一位都没有移动bin(1<<1)‘0b10’ 移动了1位变成10bin(1<<2)‘0b100’ 移动了两位变成100bin(1<<0 | 1<<1)‘0b11’ 与运算变为这样bin(1<<0 | 1<原创 2021-08-25 15:11:43 · 117 阅读 · 0 评论 -
记一次愚蠢的事情
df1:df2:然后我想选出df2中的4这一条,于是我select a.* from df1a ,df2 b where a.id_ <> b.id最终并没有得到我要的结果而是这个为什么?因为我们把sql改一下,把b也一起打印select a.* ,b.from df1a ,df2 b where a.id_ <> b.id这样就知道是怎么回事了,我们换一下sqlselect a.,b.* from df1 a left join on df2 bon原创 2021-08-13 14:56:48 · 64 阅读 · 0 评论 -
使用spark 布隆过滤器的一个坑
object SparkAutoBloomFilterDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().enableHiveSupport().config(sparkConf).getOrCreate() import spark.implicits._ //注意!id_不能为数字,否则无效!!!!!// val df = Seq(// ("dsad11", "Firs原创 2021-08-12 19:51:19 · 308 阅读 · 0 评论 -
hive的insert into语法
建表语句:CREATE TABLE test(id string,name string)PARTITIONED BY (dayno string)插入语句,注意string用单引号insert test partition(dayno=‘20210812’) values(‘2’,‘name2’),(‘3’,‘name3’),(‘4’,‘name4’);原创 2021-08-12 14:53:23 · 8261 阅读 · 0 评论 -
spark日志查看
找到application id进去这里查看driver或者进入spark的history来这里可以同时查看所有的executor,包括driver。点开executor后可以看到你所有的executor,和一个driver。日志见右侧。stdout是自己定义println的输出日志,stderr是spark输出的规范日志。对于driver日志而言,代码中的println()和show()等函数的输出,一般都在stdout里,大部分重要的报错信息都在stderr里。如果application原创 2021-08-09 15:14:15 · 3945 阅读 · 0 评论 -
hadoop:单节点centos7(docker镜像)环境搭建
解压安装首先docker pull centos7,然后把包丢进去解压按照管理配置环境变量vi /etc/profileexport JAVA_HOME=/opt/jdk1.8.0_181export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/opt/hadoop-3.1.4export PATH=$PATH:原创 2020-09-12 15:05:37 · 428 阅读 · 0 评论 -
windows下安装hive2.1.1
windows下安装hive2.1.11.解压配置文件修改 hive-env.sh修改 hive-site.xmlhdfs上面建立文件夹创建hive数据库,注意编码 latin1测试一下【偷懒计划】家里的笔记本懒得开虚拟机了,开个虚拟机啊卡的要死不划算,so在windows装一个1.解压下载hive包后解压,然后新建个文件夹my_hivemyhive里面建几个文件夹然后把mysql驱动丢进lib里面配置文件首先改名字hive-default.xml.template原创 2020-08-13 18:34:01 · 1706 阅读 · 0 评论 -
在windows搭建hadoop
windows下的hadoop搭建最小化配置启动查看界面最小化配置core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>hdfs-site原创 2020-08-12 21:53:00 · 121 阅读 · 0 评论 -
spark-streaming
spark-streaming概述特点DStreamWordcountwordCount解析Dstream的创建概述SparkStreaming用于流式数据的处理,支持很多数据源和spark基于rdd的概念类似,sparkStreaming使用离散化流(discretized stream)作为抽象表示,叫DStream。Dstream是随着时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列。特点易用、容错、架构如下DStr原创 2020-08-08 16:58:09 · 106 阅读 · 0 评论 -
Spark-windows安装与实践
Spark-Windows安装与实践安装开发环境试一下wordcount程序有时候懒得开虚拟机,windows也凑合安装开发环境1.安装spark这里不再赘述,http://spark.apache.org/downloads.html下载spark-xx-bin-hadoop即可,配置路径环境变量,路径记得加上bin然后spark的安装文件夹做如下处理第一步,去掉只读、隐藏第二步,勾选完全控制不然spark-shell启动会然后赋权PS I:\develop_software\h原创 2020-08-08 16:33:17 · 276 阅读 · 0 评论 -
spark-sparkSQL
SparkSQL概述特点什么是DataFrame什么是DataSetsparksql编程起始点Dataframe创建创建sqlDataSetDataFrame、DataSet和RDDscala案例概述SparkSQL是spark用来处理结构化数据的一个模块,它提供了dataframe和dataset两个编程抽象,并且作为分布式sql查询引擎的作用。hive是将hive sql转化为mapreduce然后提交到集群执行,大大简化了编写mapreduce的复杂性,由于mapreduce计算模型效率比较慢,原创 2020-08-08 16:18:48 · 288 阅读 · 0 评论 -
flink-实战:scala计算topN
数据定义:需求:每隔5分钟输出最近一小时内点击量最多的前N个商品。样本(csv文件)82170,3588374,2465336,pv,1511658004587599,2067643,4818107,cart,1511658004367451,15775,4756105,pv,1511658004428316,2478780,4284875,pv,1511658004284910,3680091,3829657,pv,1511658004345119,737662,4357323,pv,1原创 2020-07-31 19:08:09 · 902 阅读 · 0 评论 -
flink-简介以及安装
flink简介简介重要特点事件驱动型(Event-driven)流与批分层api安装wordcount简介简介pache flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在素有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。flink诞生很早,2010年,但是2015年才开始爆发热度,在flink被apache提升为顶级项目后,阿里实时计算团队决定在阿里内部建立一个flink的分支blink,并对flink进行大量的修改和完善,让其适应阿里巴巴这原创 2020-07-31 14:56:22 · 246 阅读 · 0 评论 -
clickhouse-入门毛熊神器
clickhouse入门概述官方文档列式存储安装准备工作正式安装启动集群安装数据类型整型整型布尔型字符串枚举数组元组Date表引擎TinyLogMemoryMergeMergeTreeReplacingMergeTreeSummingMergeTreeDistributedSQL语法CREATECREATE DATABASECREATE TABLEINSERT INTOALTERDESCRIBE TABLECHECK TABLE大熊参考于b站尚硅谷课程概述ClickHouse 是俄罗斯的Yandex于原创 2020-07-30 16:40:52 · 665 阅读 · 0 评论 -
sqoop-介绍以及安装
sqoop介绍以及安装简介底层原理安装下载地址部署测试简介sqoop是一款开源工具,用于在hive和传统数据库间mysql做数据传递,也就是可以从hive导入到关系型数据库也可以从关系型数据库导入到hive这意思底层原理事实上sqoop就是把底层原理翻译成了mapreduce程序翻译出的mapreduce程序主要是对inputformat和outputformat进行定制安装前提:有java,有hadoop。下载地址http://mirrors.hust.edu.cn/apache/sqo原创 2020-07-29 18:21:25 · 534 阅读 · 0 评论 -
zookeeper
zookeeper概念安装概念Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。安装解压tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/重命名mv zookeeper-3.4.10 zookeeper传送到三台机子在zookeeper目录下新建zkDatamkdir -p zkDatacd zkDatavi myid注意三台机子的myid不一样,node1为1,node2为2,node3为3然后配原创 2020-07-28 01:00:25 · 95 阅读 · 0 评论 -
kafka-入门与部署
kafka入门以及部署kafka简介topicPartitionProduceConsumer安装集群部署kafka简介Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。以下粗略讲几个概念topickafka模仿了数据库的设计设计了主题,相当于mysql的表PartitionPartition(分区)其实就是个目录,一个主题多个分区Produce生产者。谁往里面发数据谁就是生产者Consumer消费者。从kafka读取数原创 2020-07-28 00:42:20 · 108 阅读 · 0 评论 -
flume
flume定义作用组成AgentSourceChannelSink安装定义flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。Flume基于流式架构,灵活简单作用组成AgentAgent是一个JVM进程,以事件的形式将数据从源头送至目的地,是flume数据传输的基本单元Afgent由source、channel、sink组成SourceSource是负责接受数据到Flume Agent的组件,可以接受处理各种类型的日志格式数据Channel原创 2020-07-28 00:02:58 · 108 阅读 · 0 评论 -
hadoop-mapreduce
mapreduce概述定义优点缺点概述定义mapreduce是一个分布式的运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心的框架。其核心功能为将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群之上。优点1)容易编程。简单地实现了一些接口就可以完成一个分布式的程序,这个分布式程序可以分布到大量廉价的pc机器上面运行,也就是说写一个分布式程序跟写一个简单的串行程序是一样的,这使得mapreduce编程非常流行。2)拓展性好。当计算资原创 2020-07-27 22:51:51 · 80 阅读 · 0 评论 -
hadoop-hdfs
HDFS概述定义优点缺点架构块大小shell操作命令概述数据量越来越大,我们一个操作系统往往存不下所有的数据,所以会分配给很多操作系统管理的磁盘里面,但是这样不方便管理维护,我们需要一种系统管理多台机器上的文件。hdfs是其中的一种定义hadoop distributed file system简称hdfs是一个分布式文件系统,适合一次写入,多次读出,不支持修改文件,适合做数据分析,不适合做网盘。优点1)高容错数据自动保存多个副本,副本丢失还可以自动恢复2)适合处理大数据,TB甚至PB的数据原创 2020-07-27 22:38:16 · 98 阅读 · 0 评论 -
Hadoop-入门
hadoop安装使用概念二级目录安装二级目录概念hadoop是一个由apache基金会所开发的分布式系统基础架构,主要是用来解决二级目录安装二级目录原创 2020-07-27 22:02:01 · 189 阅读 · 0 评论 -
hadoop-hadoop的各种版本
hadoop的各种版本概述三大发行版本ApacheCloudera HadoopHortonworks Hadoop选型概述由于apache hadoop是开源的,任何人可以对其修改并作为开源或者商业的产品,所以出现很多发行版本,例如华为发行版、、Cloudera发行版(CDH)等。三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonwor原创 2020-07-25 23:21:07 · 1866 阅读 · 0 评论