不写博客心刺挠-CSDN博客

原创关于Flink学习选哪家好硅谷or黑马?

尚硅谷有两个java版(录制)scala版(录制)黑马的大致有两个系列flink1.12(课堂版)flink入门到精通(录制)怎么选择有一说一,尚硅谷的scala版本更简介,易懂(清华的武老师),java版不推荐(如果你学过spark)本人是黑马粉,但这个scala版的确是尚硅谷出的scala版更有优势(细节多),如果还是想选着跟黑马建议选录制版本的......

2021-12-09 22:54:40 3476 2

day01课堂笔记flink简介flink引入大数据技术架构发展阶段总共有四代,mr–>DAG框架(tez) --> Spark流批处理框架,内存计算(伪实时) -->flink流批处理,内存计算(真正的实时计算)flink vs spark什么是flinkflink是一个分布式,高性能,随时可用的准确的流式计算框架,flink可以对无界数据(流处理)和有界数据(批处理)进行有状态计算(flink天生支持状态计算)的分布式,高性能的计算框架.flink流处理特性fli

2021-12-07 20:24:50 1293

原创 Profile_Day07:企业级360*全方位用户画像

Profile_Day07:企业级360*全方位用户画像1,上次课程内容回顾主要围绕2个方面展开:机器学习基础(概念)和回归算法(线性回归)2,今日课程内容提纲主要内容;开发挖掘类型标签客户价值标签RFM ,涉及聚类算法KMeans1,客户价值R,F,M标签含义,功能,业务实现熟路2,聚类算法KMeans算法概念,原理KMeans算法(K-均值算法):K:表示将数据聚类为K个类簇Cluster,划分K各个类别,K值大于等于2Mean:平均值案例展示:使用

2021-11-29 21:22:59 296

原创 hive窗口分析中的三个排序方法区别

窗口函数的3中和他们的区如下图ROW_NUMBER:序号不允许重复,且递增.RANK:允许重复(并排),序号有并排后会有跳跃DENSE_RANK:允许重复(并排),序号有并排后不会有跳跃

2021-11-28 22:18:34 1355

原创 hue配置Oozie任务时拖拽Spark无完整配置选项

使用hue配置Oozie任务时拖拽Spark无配置页面问题使用hue配置Oozie任务时,要先点击ACTIONS按键,成为ACTIONS状态,再拖拽spark图标.

2021-11-28 22:12:41 1075

原创 Profile_Day05:企业级360全方位用户画像

Profile_Day05:企业级360全方位用户画像1昨日内容回顾主要讲解2个方面的内容: 如何基于SparkSQL实现自定义外部数据源HBase和统计类型标签模型开发.1, SparkSQL外部数据源HBase按照SparkSQL模块提供的外部数据源接口,实现HBase表中加载和保存数据2,今日课程内容提纲3,用户画像:标签系统整个用户画像项目:基于电商平台构建的,主要使用注册会员的基本信息,交易数据和流量数据对用户进行把标签用户画像:将用户数据进行标签化模块一:标签管

2021-11-27 21:12:44 1226

原创 Profile_Day04:企业级360°全方位用户画像

Profile_Day04:企业级360°全方位用户画像1昨日课程内容回顾主要讲解:标签模型应用开发,针对规则匹配类型模型开发,涉及2大方面的内容:第一方面内容: 标签模型开发,以[用户性别标签模型为例],整个开发步骤流程给每个用户打上性别标签,存储到HBase画像标签表: tb_profile标签模型开发分为四个步骤1,依据每个标签(4级业务标签)tagld,获取标签数据业务标签标签规则rule; 标签计算业务数据源的信息业务标签对应的属性标签信息: 标签名称bna

2021-11-27 17:10:39 686

原创 Profile_Day03:企业级360°全方位用户画像

第一节内容:业务数据迁移如何将用户相关业务数据从MySQL数据表迁移到HBASE数据库中方式一SQOOP直接导入数据,简单,并行导入方式二:MapReduce程序1.hbase数据库提供工具类: ImportTsv2,自己编写MapReduce程序,灵活性大,难度较大方式三:Spark程序针对海量数据批量数据加载至HBase表时,推荐使用Bulkload方式加载,比较Put方式:1,put方式插入数据:put --> WAL(预写日志) -->memstore(内存).

2021-11-26 22:27:23 947

转载用户画像第一章(企业级360°全方位用户画像_项目安排：)

企业级360°全方位用户画像项目安排：企业级360°全方位用户画像一、用户画像概念、设计构建用户画像及项目演示说明 -2天用户画像概念发展如何构建用户画像标签Tag 项目核心功能：深入剖析（最关键）项目工程初步搭建二、基础知识：数据导入ETL和应用调度 -2天 a）、数据采集与ETL 如何将业务数据采集导入到...

2021-11-26 19:45:03 1385

原创电信号项目的补充

电信号项目中有六张hive原始表,最总要变成五张基于hbase的phoneix表,编写的自定义字段转换函数,有的函数会有带一个参数和带两个参数,这是因为不同的phoneix表会用到不同的自定义处理方式.由六张表变成五张表的过程中,涉及到多表关联查询,需要相同的字段连接,然而同一字段表现形式会不同比如:这里就需要对字段做截取五张habase中可能存在很多的逗号,这回影响到后面转换成phoneix表,要解决逗号的问题在文章的上一篇的知识点33前端项目补充导入前段页面项目的时候..

2021-11-26 19:11:55 708

原创大数据电信号分析项目

电信信号强度诊断项.知识点1 项.背景.机.前已经是.们.活必不可缺少的.具，给我们带来.便的同时，特带来.些困扰，例如：由于信号强度差、.络速率低导致的抢红包慢，通话的质量较差。本项.主要.于分析.户附近的信号强度，.络质量，为.户提供.些建议，例如：.户附近哪家运营商的.络质量好，信号强度.，例如，.户的哪个.向…使.的运营商信号好。为运营商提供.些合理的建议，例如某.地理区域，某.地标（.校、居.区）信号强度排名。知识点2 项.模块介绍模块1 仪表盘：主要是领导关.的.些指标，有限展示在…。

2021-11-26 19:11:36 1953 1

原创数据仓库-Hive

数据仓库-Hive1. 数据仓库1.1. 基本概念底层用的是MapReduce数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。可以理解为：面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的（Subject-Oriented ）、集成的（Integrated）、非易失的（Non-Volatile）和时变的（Time-Variant ）数据集合，用以支持管理决策。1.2.

2021-11-23 17:42:43 872

原创 yarn资源调度

yarn资源调度1.yarn的介绍： yarn是hadoop集群当中的资源管理系统模块，从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源（主要是服务器的各种硬件资源，包括CPU，内存，磁盘，网络IO等）以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控，实现分离的做法是拥有一个全局的资源管理（ResourceManager，RM），以及每个应用程序对应一个的应用管理器（ApplicationMaste

2021-11-23 15:54:03 498

原创 HBase的协处理器

协处理器这个得对比hive比较HBase和hive比没有天生的分布式计算能力,可以理解hive节点都有"后门"可以进行分布式计算,本来HBase是没有的但是通过协处理器,他便有了一定的分布式计算功能,(他原先下的存储功能比hive好)协处理器有两种： observer 和 endpointobserver协处理器Observer 类似于传统数据库中的触发器，当发生某些事件的时候这类协处理器会被 Server 端调用。Observer Coprocessor 就是一些散布在 HBase Server

2021-11-22 19:40:26 1457

原创 HBase的读写流程

HBase的读流程客户端拿到一个RowKey(首先得知道这rowKey存在那个region中)根据zk查询获取hbase:meta表,这个表中存放了region的信息,根据namespace,表名,就可以根据rowkey的startkey,endkey返回region的信息还需要查询region是在哪个HRegionServer(因为我们是region会存在什么地方的)读取Store优先读取写缓存-读取BlockCache（LRUBlockCache、BucketBlockCache)再读

2021-11-22 15:26:33 629

原创 Phoneix中的二级索引知识点

二级索引分类Phoneix的索引底层还是表现为HBase中的表结构(每建一个索引就回增加一个表),这些索引表专门用来加速查询速度.你用索引表加快查询读多写少:全局索引读少写多:本地索引索引可以理解成二叉树1,全局索引:二叉树里只有RowKey的地址值.针对整张表,在整个HBase集群中,都是有效的,索引数据会分布在全局2,覆盖索引:二叉树不光有Rowkey,而且把你要查的数据完整信息都放在里面了,占用空间更大,不像全局索只存放地址值将数据直接存放在索引中,直接查询索

2021-11-22 11:20:51 529

原创 HBase的布隆过滤器使用

过滤规则总的来说:可以根据Rowkey,列, 列值等进行过滤搭配比较运算符和比较器使用比较运算符比较器scan+Filter其实在hbase shell中,执行的ruby脚本,背后还是调用hbase提供的java API在HBase中有很多过滤器,语法格式看起来会比较复杂,要重点理解这个语法是什么意思过滤器在hbase shell中是使用一个表达式来描述,在java里面是new的各种对象scan "ORDER_INFO", {FILTER => "RowFilter(=,

2021-11-20 22:45:55 611

原创 HBase计数器和简单scan操作

计数器count"表名":hbase就会将这个表对应的所有数据扫描一遍,得到最终的记录条数(性能消耗大慎用 )执行HBase提供的基于MR的RowCount的程序,(用于做大数据的查询)启动yarn集群启动mr-historyserverscan扫描全表扫描:scan"表名"(慎用,效率很低)先定只显示多少条:scan"表名", {limit => 5}指定查询几个列: scan “表名” , {limit => 5 , columns => [ ]}根据ROW

2021-11-20 20:45:17 1146

原创如何理解Hbase中大小Key,及简单实用Hbase

Hbase中大key是Rowkey,小key是colume(列簇)相当于maplist 列簇中列的数量相当于是无限定的也看到有人说大Key是Rowkey ,小key是 colume:list(即"列蔟:列名"),如有不同,评论区见♡其他大数据架构框架中及到大小key的NoSql数据库比如:Redis也是分大小key的列簇中的列想加多少就加多少这个特性让他非常适合做用户画像,可以参考b站黑马的用户画像项目企业级360度用户画像项目实际的用户画像项目的标签就是一条条加上HBase

2021-11-20 19:22:13 1362

原创 Redis的操作

一、基于string类型操作设置获取KeySET hello worldGET helloMSET（Multi）支持批量设置key、MGET支持批量获取keyMSET hello1 world1 hello2 world2MGET hello1 hello2设置一个key，并指定过期时间SETEX hello3 5 world使用INCR来进行累加操作SET PV 1INCR PV二、基于hash类型操作记住：大key、小key设置Hash的指定字段HSET userinfo

2021-11-19 21:19:04 149

原创 docker安装redis 配置文件

新建宿主机目录：1. 创建docker统一的外部配置文件 mkdir -p /docker/redis/{conf,data} 2. 在conf目录创建redis.conf的配置文件 touch /docker/redis/conf/redis.conf 3. redis.conf文件的内容需要自行去下载，用之前的配置，记得修改：上面这个过程中有一个坑，即“daemonize no”这个配置，如果在启动容器的时候这个参数值为yes的话，是无法启动镜像的。 4. 创建启动容器，加载配置文

2021-11-19 17:41:46 435

原创 Redis课堂笔记day02

Redis课堂笔记课堂目标能够理解Redis的主从复制jiegou能够理解Redis的Sentinel架构能够理解Redis集群架构1. Redis的主从复制架构 44Redis可以配置主从复制结构,主节点就是Master节点,从节点就是Slave,Slave节点会不断的从Master节点同步数据一个Master节点可以对应多个Slave节点Slave节点会向Master节点发送SYNC的请求,Master接受到SYNC请求后,做两件事:(初始化)第一,以RDB的形式保存快照第二

2021-11-19 17:37:38 922

原创 Docker安装redis

redis笔记1. redis介绍用途快速的实时搜索 (抖音)需要精准设定过期时间的应用计数器应用 (pv,uv)用于网站的行为分析/流量分析Uniq操作,获取某段时间所有所有重复值实时系统,反垃圾系统缓存2 Redis特点高效性原子性要么成功要么失败稳定性:持久化Docker如果想安装软件 , 必须先到 Docker 镜像仓库下载镜像。Docker 镜像仓库Docker 安装Redis1、寻找Redis镜像在Docker镜像仓库寻找Redi

2021-11-19 15:48:09 167

原创 DockerUI:portainer (web监控页面)

DockerUI :Portainer1 查看dockerui poratiner镜像docker search 2选择喜欢的dockerui风格镜像,下载docker pull docker.io/portainer/portainer3启动UI-d创建一个守护式容器在后台一直运行 -id-p 端口映射:指定容器暴露的端口:9000:9000,前者是主机端口:后者是宿主机端口–restart = 指定容器停止后的重启策略:no 容器退出时不重启1on-failure 容器故障

2021-11-18 18:28:20 1144

原创 Docker容器虚拟化与传统虚拟机的比较

Docker容器虚拟化与传统虚拟机的比较容器虚拟机和VMware虚拟机能干同样的事容器很小,虚拟机很大相同容器和虚拟机具有相似的资源隔离和分配优势不同容器虚拟化的是操作系统,虚拟机虚拟化的是操作硬件业界流行的一句话,虚拟机已死,容器才是未来....

2021-11-13 10:44:15 1109

原创 Docker的私有仓库

Docker 私有仓库一、私有仓库搭建# 1、拉取私有仓库镜像 docker pull registry# 2、启动私有仓库容器 docker run -id --name=registry -p 5000:5000 registry# 3、打开浏览器输入地址http://私有仓库服务器ip:5000/v2/_catalog，看到{"repositories":[]} 表示私有仓库搭建成功# 4、修改daemon.json vim /etc/docker/daemon.json

2021-11-13 10:32:34 797

转载 Docker Compose

Docker Compose一、安装Docker Compose# Compose目前已经完全支持Linux、Mac OS和Windows，在我们安装Compose之前，需要先安装Docker。下面我们以编译好的二进制包方式安装在Linux系统中。 curl -L https://github.com/docker/compose/releases/download/1.22.0/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docke

2021-11-12 22:21:41 218

chenlujun98的博客

原创黑马2022大数据课程的变化

原创大数据集群中常用到的端口(带截图)