- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 hbase相关整理
默认情况下blockcache与memstore各占40%,可以根据业务进行调整,比如读多写少的业务可以将blockcache占比调大,另外blockcache的策略选择也很重要,不同的策略对读性能影响不大,但对GC的影响却很大,尤其是bucketcache的offheap模式下GC表现很好,另,Hbase2.0有对offheap进行过改造,使其读性能提升2~4倍。提交分为两个阶段,先提交到client端的缓存(默认2M)中,当达到阈值时,再提交到regionserver,但会存在数据丢失的可能性。
2023-05-01 12:19:24 169
原创 密钥rsa简要配置
密钥rsa简要配置ssh-keygenssh-copy-id -i .ssh/id_rsa.pub xxx.xxx.xxx.xxx。
2023-04-15 10:39:33 164
原创 hive相关操作
note:hive.exec.mode.local.auto.inputbytes.max=128M,如果输入数据量大于此,则亦会走集群模式,如加载文件数量大于配置值同样会走集群模式。在动态分区严格模式下set hive.exec.dynamic.partition.mode=strict,动态写入技巧。hive.map.aggr.hash.min.reduction=0.5配置比例判断是否进行map combine。hive -i init.sql会在进入命令行时执行init.sql中的sql。
2023-04-12 18:00:34 117
原创 Hbse通过solr建立二级索引
一般有用到的命令和配置改动如下:solrctl --zk xxx.slave1:2181,xxx.slave2:2181,xxx.slave3:2181/solr instancedir \--generate /opt/cdhsolr/myConfigsolrctl --zk xxx.slave1:2181,xxx.slave2:2181,xxx.slave3:2181/solr instancedir \--create xxxEventCollection /opt/cdhsolr/myCo
2021-06-25 18:04:54 139
原创 Sqoop与Mysql的数据导入导出脚本
导入demo:#! /bin/bash# 将mysql的充值表导入到hive中的临时表# job创建sqoop job --create xxx_recharge_log_job -- import --hive-import --connect jdbc:mysql://xxx.master:3306/ryff_logic --username root --password root --verbose -m 1 --hive-database ryff_dataware --hive-tab
2021-06-25 17:42:20 271
原创 Hive数仓分层建设
Hive分层ODS层:一般存储原始数据DWD层:对ODS层的数据进行简单的处理DWS层:对DWS层的数据进行进一步处理ADS层:对DWS层的数据进行聚合统计,一般会导出到关系性数据库中提供后台查询ODS层现在通过对...
2021-06-24 14:24:46 522
原创 基于Yarn的Flink工程部署流程
1.idea上的工程打jar通过shadowjar进行fat-jar打包,笔者采用低版本时有报错,会有mainClassName找不到或与grdale不兼容的一些其他的报错,因为自己gradle用的版本是6.8.3,所以当前采用的是shadowjar 5.2.0 版本自己的gradle配置如下:buildscript { repositories { jcenter() } dependencies { classpath 'com.gith
2021-06-24 10:21:03 289
原创 从Kafka消费到数据的转换、入库(一)
采用的数据处理引擎与入库组件处理引擎:Flink持久化组件:Hbase、HDFS、Mysqlgradle依赖:buildscript { repositories { jcenter() // this applies only to the Gradle 'Shadow' plugin } dependencies { classpath 'com.github.jengelman.gradle.plugins:shadow:5.2.0'
2021-06-23 14:19:08 1466
原创 从服务端埋点到Kafka(二)
主要操作主要的内容就是根据模型的字段要求,在相应的游戏逻辑执行时将埋点的json串发送到Kafka代码实现由于游戏服务端采用Java编写,所以现在以Java为例进行说明public abstract class LogEvent implements Serializable { private static final Gson GSON = new Gson(); public int serverId; protected long createTime; protected Stri
2021-06-23 11:16:05 834
原创 从服务端埋点到Kafka(一)
服务端埋点时事件模型建立基础数据模型有如下:列名详情公有字段:String account,long userId,long roleId,int roleLevel,String roleName,String channelKey,String deviceId,int gender,int serverId,long createTime,String logName(用户账户,用户账户ID,角色ID,角色等级,角色名称,渠道,设备ID,性别,服务器id,创建时间,日志名)
2021-06-23 09:55:12 695
原创 一次基于Vue的Vedio.js使用
遇到的问题1.由于采用了分页,所以在两次切回到较小的页码时,会有warning警告,提示player对象已经被初始化过。2.如果调用对象销毁之后,对应的DOM节点也同时会被销毁,根据id获取节点会报找不到对应元素//以下是解决方法 initVedio() { //初始化视频方法 循环列表获取每个视频的id if(this.tableData.length>0){ //在初始化vedio前
2021-06-15 16:57:36 391
原创 CDH 6.3.2 搭建流程
机器准备(以4台机器进行说明)安装操作系统,笔者以Centos7.8进行测试笔者采用UltraISO进行系统安装,采用mini模式。接下来进行了基本配置,包括ip,网络,时间同步等等下面为其中一些操作: sodu vi /etc/hosts############# xxx.xxx.xx.xx1 mycluster.master xxx.xxx.xx.xx2 mycluster.slave1 xxx.xxx.xx.xx3 mycluster.slave2 xxx.x
2021-06-08 19:15:13 239
原创 对离线数仓的整个数据流程架构整理
对离线数仓的整个数据流程架构整理业务背景基于游戏的数据分析业务,对玩家的统计信息进行分渠道,分服务器的灵活即时查询。并可以实时响应相关统计指标的明细查询,实现数据的钻取。技术选型整个大数据分析平台选用业内较为流行的CDH进行部署,相关组件的使用,根据业务需要,进行相应的添加。流程架构图...
2021-06-08 18:16:12 537
原创 Mybatis的update返回值问题
Mybatis的update返回值Mybatis执行update后返回num与在数据库中直接执行时返回的值不同,在数据库中执行显示affect的行数为0,Mybatis中显示>0== 实际上,Mybatis中的返回值为sql语句匹配上的条数,并不是affected的条数==在Mysql的连接路径上加上参数?useAffectedRows=true便可以在Mybatis中返回affect条数...
2020-11-26 21:49:11 1319
原创 运行Docker Toolbox terminal无法找到bash.exe
运行Docker Quickstart Terminal快捷方式时出现windows找不到bash.exe,可能是因为找不到git 的bash.exe的所在路径,只需右键-》属性-》快捷方式-》目标,然后修改git的相应路径即可。...
2019-10-05 13:09:10 684
原创 读取配置文件的三种方式
1、FileInputStream(“src/xxx.xx”); 只适用于像java这种未发布的工程 2、this.getServletContext().getResourceAsStream(“xxx.xx”); 只适用于servlet中使用,使用时配置文件应放在WebContent中 3、xxx.class.getClassLoader().getResourceAsStream(“...
2018-09-05 23:12:50 550
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人