大数据综合
文章平均质量分 53
香山上的麻雀1008
大数据
展开
-
正则表达式 不以特定 字符开头的行 或者 不包含特定 字符串的行
比如匹配不以a开头的结果作为定位符时, 表示字符串的开始, 表示字符串的结束,不以Lua 或者 Java开头的行:原创 2022-07-12 10:31:15 · 4077 阅读 · 1 评论 -
StarRocks 如何获取profile
1通过 set is_report_success=true 可以打开profile的上报。2在MySQL客户端中执⾏你的sql语句:3打开浏览器,社区版⽤⼾在 http//:FE_IP:FE_HTTP_PORT/query 可以看到当前的查询和Profile信息:进⼊然后复制profile信息...原创 2022-04-12 13:47:43 · 1020 阅读 · 0 评论 -
cloudera-repos 地址
cloudera-repos 地址:https://repository.cloudera.com/artifactory/cloudera-repos/原创 2021-09-23 13:33:29 · 841 阅读 · 0 评论 -
自行编译spark适配CDH 6.3.2
我们用的是CDH 6.3.2,内置的spark版本是2.4.0,有两个问题:cdh6之后就取消了spark-sql客户端hudi 0.9.0 仅支持 spark 2.4.4之后的版本所以就想自己安装个spark使用。1.下载spark 3.1.2 版本源码https://spark.apache.org/downloads.html2.修改pom文件增加cloudera maven仓库<repositories> <repository> <原创 2021-09-18 15:18:23 · 3206 阅读 · 12 评论 -
如何查看CDH修改参数记录
参考:https://blog.csdn.net/summer089089/article/details/1073221071.通过组件的CM主界面进入下图,点击 “快速链接”–“全部”。2.进入界面的后来到下图,筛选框选择如下,选择对应时间段,然后点击记录后面的“查看”。3.然后跳转到如下界面:4.点击详细信息就能看到以前改过的配置信息...原创 2021-09-07 11:30:01 · 907 阅读 · 0 评论 -
Apache Doris 0.14.0 编译部署安装过程记录
使用 Docker 开发镜像编译下载镜像docker pull apache/incubator-doris:build-env-1.3.1在本地下载源码(非容器内)$ mkdir -p /data/software/doris/src$ cd /data/software/doris/src$ git clone https://github.com/apache/incubator-doris.git或者下载清华大学的国内镜像(很快,但是要指定版本路径):https://mirror原创 2021-09-02 20:13:10 · 937 阅读 · 1 评论 -
CDH 集群配置 kerberos 过程
前提是安装好了CDH启用kerberos所需的组件:kerberos,Ldap,IPA接上一篇:大数据集群 Kerberos 安装记录第一步 选择管理->安全第二步 启用kerberos按照步骤,打上对即可第三步 配置KDC信息第四步 ,这里不选最好不要通过CM管理krb5.conf,我感觉,要不然以后想修改个配置什么的比较麻烦第五步 配置在KDC中给CM开的管理员账户第六步 默认不需要修改这里一般不需要修改第七步点继续,按照提示往下走就可以了,都是自动的,这个过程原创 2021-08-19 15:26:48 · 447 阅读 · 0 评论 -
大数据集群 Kerberos 安装记录
文章目录server/client 端安装配置在cdh05安装服务端修改配置文件配置 /var/kerberos/krb5kdc/kdc.conf 文件配置/var/kerberos/krb5kdc/kadm5.acl文件创建生成kerberos的KDC数据库文件启动kerberos服务设置kdc、kadmin开机自启安装kerberos客户端测试kerberos安装是否成功在kerberos任意客户端节点执行初始化及登录命令附录server/client 端安装配置在cdh05安装服务端yum in原创 2021-08-17 16:52:53 · 458 阅读 · 0 评论 -
A read-only user or a user in a read-only database is not permitted to disable read-only mode
Sqoop同步数据时候报错:21/08/13 02:02:58 ERROR bonecp.PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.原创 2021-08-13 14:29:02 · 973 阅读 · 0 评论 -
hadoop NameNode 配置HA后不生效问题
现象最早Hadoop的NameNode是没有配置HA的,后面配置了HA后发现NameNode发生切换之后表还是不能正常查询了,经过DESCRIBE formatted xxx之后发现,配置过HA之后新建的表的Location仍然是hdfs://host:8020/user/hive/warehouse/xxx.db/xxx而不是配置的Nameservice名称排查经过排查发现配置HA之后新建的数据库里的表,在发生NameNode切换之后仍然能正常查询,推测可能是跟hive的元数据库有关。查看h原创 2021-08-09 19:07:55 · 491 阅读 · 0 评论 -
天池 - 用户行为分析数据集地址
地址传送:https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423说明:本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共计6列字段,列字段分别是: user_id:用户身份,脱敏 item_id:商品ID,脱敏 behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示) user_geohash:地理位置 item_categ.原创 2021-08-01 17:14:43 · 490 阅读 · 0 评论 -
【Hive SQL 新算法】求任意时间段连续登录N天用户数/用户明细/最长连续登陆天数/用户留存率问题总结
注:本计算方法原创来源于:https://blog.csdn.net/hweinifengkuang/article/details/92832309建测试表CREATE TABLE `user_login_table`( `user_id` int COMMENT '用户ID', `login_date` date COMMENT '登录日期') 插入1000条测试数据数据见文末写SQL-- 第二段 根据登陆时间减去排列顺序 得出用户连续登陆的分组SELECT user原创 2021-07-31 15:51:31 · 1586 阅读 · 0 评论 -
Impala SQL解决动态分区 过多小文件问题
在执行的SQL前加上:set NUM_NODES=1;如下:set NUM_NODES=1;refresh ods.ods_sensors_share_event_text;insert overwrite dwd.dwd_sensors_share_event partition(`date`)selectshare_type,url,share_user_id,share_result,site_resource,is_employee,replace(regexp_extract(原创 2021-07-30 11:30:45 · 929 阅读 · 0 评论 -
计算相互关注类型的SQL
计算相互关注类型的SQL,这是前一段时间某公司的面试题,有多种思路,我这里简单实现两种:gift表: 代表着`uid`给`to_uid` 送了礼物follow表:代表`uid`关注了`to_uid`原创 2021-07-26 20:58:45 · 861 阅读 · 0 评论 -
计算互相关注的SQL怎么写
计算互相关注的SQL应该怎么写用户好友关系是一个产品的核心数据,只允许互相关注的用户之间发消息称为强关系型产品,比如微信;反之,不互相关注也能看到动态,比如微博,就是弱关系型产品因为微信的存在,现在基本能做大的都是社区型的,弱关系型的产品了。所以互联网公司就很容易碰到,从单向关注数据中计算是否双向关注这种需求。假设现在有一张表,叫table_relation里面只有两个字段,from_user,to_user, 代表关注关系从from指向to,即from_user关注了to_user。select转载 2021-07-20 21:00:10 · 1515 阅读 · 0 评论 -
ORC和Parquet格式的选择
重点:ORC只支持snappy压缩格式,但是snappy不支持分片,如果文件较大只能通过一个task读取,会导致map读取的数据倾斜;Parquet支持snappy和lzo压缩,lzo支持分片,所以如果存在大文件(压缩之后的大小远大于128M),则适合采用 Parquet + lzo压缩的方式。ORC和Parquet都属于行列式的存储格式,那么在Hive中如何进行选择呢?ORCcreate table student_txn(id int,name string)//指定存储格式stored转载 2021-07-19 17:05:02 · 1286 阅读 · 2 评论 -
sqoop同步两个hive表到同一张mysql中的不同列
背景有一张mysql表a:表结构如下: 有7列col1 和 col2 是主键,col3~col7是普通列。col1col2col3col4col5col6col7prk1prk2v3v4v5v6v7col3~col5 来自于hive 表 b,col6~col7来自于hive表c。解决方案方案示意图#mermaid-svg-bs2QsNEfgltKLOc9 .label{font-family:'trebuchet ms', verdana, ar原创 2021-06-24 17:11:01 · 446 阅读 · 0 评论 -
python 飞书机器人 web hook 报警集成到Linux shell 脚本
python 脚本cat feishu_alert.pyimport requestsimport jsonfrom datetime import datetime as dtimport argparseimport sysdef send_msg(_url, _msg): """ :param _url: :param _msg: :return: """ headers = {'Content-Type': 'application原创 2021-06-23 10:41:15 · 1644 阅读 · 1 评论 -
CDH集群扩容加节点
文章目录先准备本地安装包新主机配置集群扩容步骤先准备本地安装包/var/www 目录下 文件列表如下# [cdh01 root 13:28:55] [六 6月 19] /var/www/html/cloudera-repos/cm6.3.1$ ll总用量 32-rw-r--r-- 1 root root 14041 6月 7 11:22 allkeys.ascdrwxrwxr-x 2 2001 2001 4096 9月 25 2019 repodata-rw-rw-r-- 1 200原创 2021-06-19 14:06:05 · 1867 阅读 · 0 评论 -
Hive SQL 计算指定日期本周的第一天和最后一天
select day ,dayofweek(day) as dw1 ,date_add(day,1 - dayofweek(day)) as Su_s -- 周日_start ,date_add(day,7 - dayofweek(day))原创 2021-05-20 17:59:25 · 2703 阅读 · 0 评论 -
sqoop 导出 hive数据到mysql
脚本示例sqoop-export \-Dmapred.job.queue.name=bigdata \--connect jdbc:mysql://xxx:3306/stars \--username xxx \--password xxx \--table ivs_co_all_uv \--export-dir /user/hive/warehouse/xxx/* \--columns date,uv,pv \--update-mode allowinsert \--update-原创 2021-04-20 14:41:18 · 491 阅读 · 0 评论 -
正则规则小抄
\ 转义^ 一行的开头 ^R------表示以R开头的行$ 匹配一行的结束 R$表示以R结尾的行* 表示上一个子式匹配0次或多次,贪心匹配 Zo*----- Z Zo Zooo. 匹配一个任意的字符 .*匹配任意字符串[] 表示匹配某个范围内的字符 [a-z]------匹配一个a-z之间的字符 [a-z]*-----匹配任意字母字符串...原创 2021-04-14 11:14:33 · 190 阅读 · 0 评论 -
HDFS上小文件合并
hdfs dfs -cat /user/hive/warehouse/test.db/tmpdata/* | hdfs dfs -put - /user/hive/warehouse/test.db/tmpfile原创 2021-03-23 17:59:46 · 480 阅读 · 0 评论 -
HUE loadbalancer启动失败解决方法
HUE loadbalancer启动失败,报错信息如下:cloudera-scm-agent/process/169-hue-HUE_LOAD_BALANCER/httpd.conf: Cannot load /usr/lib64/httpd/modules/mod_ssl.so into server: /usr/lib64/httpd/modules/mod_ssl.so: cannot open shared object file: No such file or directory日志转载 2021-03-18 11:40:15 · 575 阅读 · 0 评论 -
hue安装报错【已解决】
今天在CDH平台上安装Hue,突然间报了这样一个错:[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST_NAME SET: /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hue/desktop/desktop-test.db[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST原创 2021-03-17 17:29:34 · 876 阅读 · 0 评论 -
大数据项目之用户行为分析实战【转载】
大数据架构介绍一般企业大数据架构图LAMBDA架构介绍(了解)大概思路:将大数据系统构建为多个层次,三层架构:批处理层、实时处理层、服务层https://blog.csdn.net/u013368491/article/details/71271864大数据团队组织结构数据平台负责人数据平台架构师大数据开发(ETL开发、数仓开发)深度学习/AI工程师BI思考题、从零开始组建公司的大数据集群如何确认集群规模?假设每台服务器8T硬盘使用Apache/CDH/HDP版本?服务器原创 2021-03-05 20:26:03 · 1947 阅读 · 0 评论 -
Apahe Pulsar 从入门到精通 整理
本文由 简悦 SimpRead 转码, 原文地址 mp.weixin.qq.com导语新年快乐!大年初三,Apahe Pulsar 社区给您拜年啦!特此奉上年货礼包????一份。Hi 小伙伴们,感谢你加入 Apache Pulsar 社区——一个快速成长的消息流技术社区。作为 「云原生时代消息中间件之王」的 Apache Pulsar ,是 Apache 软件基金会顶级项目,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致转载 2021-02-18 14:39:00 · 1425 阅读 · 1 评论 -
Kafka session.timeout.ms 与 heartbeat.interval.ms参数的区别
注:本文是从https://www.cnblogs.com/hapjin/p/10926882.html处摘抄,可直接跳转至原页面。从kafka官网截取最近碰到一个问题,多个业务往向一个Kafka topic发送消息,有些业务的消费量很大,有些业务的消息量很小。因Kafka尚未较好地支持按优先级来消费消息,导致某些业务的消息消费延时的问题。一种简单的解决方案是再增加几个Topic,...原创 2020-08-25 20:25:56 · 2263 阅读 · 0 评论 -
CDH中yarn的动态资源池的相关配置
CDH Yarn资源队列划分管理场景:根据不同项目或不同用户,对yarn资源队列进行划分,达到资源管控,任务管控的目的CDH版本:5.x配置:1 yarn资源队列参数设置:(1)yarn.scheduler.fair.user-as-default-queue false解释:当设置为 true 时,如果未指定池名称,Fair Scheduler 将会使用用户名作为默认...原创 2019-06-11 07:48:33 · 790 阅读 · 1 评论 -
Canal 直接发送消息到 Kafka 、RocketMQ配置
文章目录环境版本一、 安装zookeeper二、安装MQ三、 安装canal.server3.1 下载压缩包3.2 将canal.deployer 复制到固定目录并解压3.3 配置修改参数mq相关参数说明mq顺序性问题MQ发送性能数据阿里云RocketMQ对接参数3.4 启动3.5 查看日志3.6 关闭3.7 MQ数据消费canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka: https://github.原创 2021-01-06 20:04:39 · 3514 阅读 · 6 评论 -
Canal使用官方指南
环境要求1. 操作系统 a. 纯java开发,windows/linux均可支持 b. jdk建议使用1.6.25以上的版本,稳定可靠,目前阿里巴巴使用基本为此版本. 2. mysql要求 a. 当前的canal开源版本支持5.7及以下的版本(阿里内部mysql 5.7.13, 5.6.10, mysql 5.5.18和5.1.40/48),ps. mysql4..原创 2021-01-06 11:37:09 · 1603 阅读 · 0 评论 -
使用 Binlog 和 Canal 从 MySQL 抽取数据
数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据...原创 2019-05-22 11:18:44 · 485 阅读 · 0 评论 -
CDH 集群服务器下线记录
CDH测试集群原来有5台服务器,现在需要下线其中的4号和5号服务器。服务器上主要有如下服务:要保证服务器平稳下线,所以就需要将这些节点一个个的轮流停止,万一中间那个环节报错了,也好排查。先从对整个集群影响最大的节点开始:zookeeper因为几乎所有的高可用分布式服务都是依赖zookeeper的,所以先下线zk节点。zookeeper直接停止4,5两台服务器上的zkServer,然后删除,然后cm会提示需要重启整个集群,按指示操作即可。KuduTabletServer下线kudu表建表时原创 2021-01-04 16:16:50 · 1053 阅读 · 0 评论 -
Hue中执行的SQL语句,链接不释放
在cm界面上,将这个参数改为较小的数(默认-1是不限制):如果是单独安装的,可以修改这个参数原创 2020-12-24 11:29:02 · 617 阅读 · 1 评论 -
jdbc读取Gzip编码后的Blob类型的数据
azkaban库中的project_flows 表中的 json 字段是Blob类型的数据,而且经过Gzip 编码,还原过程示例:public static void main(String[] args) { String SELECT_ALL_PROJECT_FLOWS = "SELECT project_id, version, flow_id, modified_time, encoding_type, json " + "F原创 2020-11-02 16:01:51 · 384 阅读 · 0 评论 -
Mysql CDC 流式写Hive代码示例
cdc -> kafka示例消息如下{"data":{"team_id":1001,"team_name":"Sun","create_time":"2020-10-3111:25:38","update_time":"2020-10-31 11:25:38"},"op":"+I"}示例代码:import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api原创 2020-11-02 10:23:12 · 890 阅读 · 0 评论 -
Scala 并发编程模型Akka(一) Akka简介
Akka是JVM平台上构建高并发、分布式和容错应用的工具包和运行时,也可以理解成是编写并发程序的框架。Akka用Scala语言写成,同时提供了Scala和JAVA的开发接口。Akka主要解决的问题是:可以轻松的写出高效稳定的并发程序,程序员不再过多的考虑线程、锁和资源竞争等细节。Actor 模型用于解决什么问题处理并发问题关键是要保证共享数据的一致性和正确性,因为程序是多线程时,多个线程对同一个数据进行修改,若不加同步条件,势必会造成数据污染。但是当我们对关键代码加入同步条件synchroni.原创 2020-10-17 15:08:34 · 707 阅读 · 0 评论 -
Azkaban 自定义邮件内容以及格式 源码修改
azkaban 为邮件告警的邮件内容提供了一个接口azkaban.executor.mail.MailCreator如下:public interface MailCreator {//生成第一次失败时发送的邮件内容 boolean createFirstErrorMessage(ExecutableFlow flow, EmailMessage message, String azkabanName, String scheme, String clientHostnam原创 2020-09-15 19:23:44 · 907 阅读 · 0 评论 -
Azkaban 单个Flow 任务执行流程 源码解读
Azkaban框架会将每个Flow抽象为FlowRunner,然后将FlowRunner放入线程池中异步运行,运行过程中涉及到多次修改job的转态,以及将状态持久化到DB元数据库中,这里就从源码角度将整个过程做个简单的分析:先从azkaban.execapp.FlowRunner#runFlow开始分析/** * Main method that executes the jobs. */private void runFlow() throws Exception { this.logg原创 2020-09-14 19:06:10 · 1155 阅读 · 0 评论 -
分布式事务中的2PC介绍
2PC,是Two-Phase Commit的缩写,即二阶段提交,为了使基于分布式系统架构下的所有节点在进行事务处理过程中能够保持原子性和一致性而设计的一种算法。通常,二阶段提交协议也被认为是一种一致性协议,用来保障分布式系统数据的一致性,目前,绝大部分的关系型数据库都是采用二阶段提交协议来完成分布式事务处理的,利用该协议能够非常方便地完成所有分布式事务参与者的协调,统一决定事务的提交或者回滚,从而能够有效的保证分布式数据的一致性。协议说明二阶段提交分为以下两个阶段:阶段一:提交事务请求事务询问原创 2020-08-31 20:44:16 · 905 阅读 · 0 评论