c_jhsp-CSDN博客

原创 hbase相关整理

默认情况下blockcache与memstore各占40%，可以根据业务进行调整，比如读多写少的业务可以将blockcache占比调大，另外blockcache的策略选择也很重要，不同的策略对读性能影响不大，但对GC的影响却很大，尤其是bucketcache的offheap模式下GC表现很好，另，Hbase2.0有对offheap进行过改造，使其读性能提升2~4倍。提交分为两个阶段，先提交到client端的缓存（默认2M）中，当达到阈值时，再提交到regionserver，但会存在数据丢失的可能性。

2023-05-01 12:19:24 169

原创 mapreduce进行跨平台任务提交

mapreduce进行跨平台任务提交时需要增加相关配置。

2023-04-16 21:12:39 124

原创密钥rsa简要配置

密钥rsa简要配置ssh-keygenssh-copy-id -i .ssh/id_rsa.pub xxx.xxx.xxx.xxx。

2023-04-15 10:39:33 164

原创 hive相关操作

note:hive.exec.mode.local.auto.inputbytes.max=128M,如果输入数据量大于此，则亦会走集群模式，如加载文件数量大于配置值同样会走集群模式。在动态分区严格模式下set hive.exec.dynamic.partition.mode=strict，动态写入技巧。hive.map.aggr.hash.min.reduction=0.5配置比例判断是否进行map combine。hive -i init.sql会在进入命令行时执行init.sql中的sql。

2023-04-12 18:00:34 117

原创 maven阿里镜像配置

maven阿里镜像配置

2022-08-01 18:41:00 127

原创 Hbse通过solr建立二级索引

一般有用到的命令和配置改动如下：solrctl --zk xxx.slave1:2181,xxx.slave2:2181,xxx.slave3:2181/solr instancedir \--generate /opt/cdhsolr/myConfigsolrctl --zk xxx.slave1:2181,xxx.slave2:2181,xxx.slave3:2181/solr instancedir \--create xxxEventCollection /opt/cdhsolr/myCo

2021-06-25 18:04:54 139

原创 Sqoop与Mysql的数据导入导出脚本

导入demo:#! /bin/bash# 将mysql的充值表导入到hive中的临时表# job创建sqoop job --create xxx_recharge_log_job -- import --hive-import --connect jdbc:mysql://xxx.master:3306/ryff_logic --username root --password root --verbose -m 1 --hive-database ryff_dataware --hive-tab

2021-06-25 17:42:20 271

原创 Hive数仓分层建设

Hive分层ODS层：一般存储原始数据DWD层：对ODS层的数据进行简单的处理DWS层：对DWS层的数据进行进一步处理ADS层：对DWS层的数据进行聚合统计，一般会导出到关系性数据库中提供后台查询ODS层现在通过对...

2021-06-24 14:24:46 522

原创基于Yarn的Flink工程部署流程

1.idea上的工程打jar通过shadowjar进行fat-jar打包，笔者采用低版本时有报错，会有mainClassName找不到或与grdale不兼容的一些其他的报错，因为自己gradle用的版本是6.8.3，所以当前采用的是shadowjar 5.2.0 版本自己的gradle配置如下：buildscript { repositories { jcenter() } dependencies { classpath 'com.gith

2021-06-24 10:21:03 289

原创从Kafka消费到数据的转换、入库(一)

采用的数据处理引擎与入库组件处理引擎：Flink持久化组件：Hbase、HDFS、Mysqlgradle依赖：buildscript { repositories { jcenter() // this applies only to the Gradle 'Shadow' plugin } dependencies { classpath 'com.github.jengelman.gradle.plugins:shadow:5.2.0'

2021-06-23 14:19:08 1466

原创从服务端埋点到Kafka（二）

主要操作主要的内容就是根据模型的字段要求，在相应的游戏逻辑执行时将埋点的json串发送到Kafka代码实现由于游戏服务端采用Java编写，所以现在以Java为例进行说明public abstract class LogEvent implements Serializable { private static final Gson GSON = new Gson(); public int serverId; protected long createTime; protected Stri

2021-06-23 11:16:05 834

原创从服务端埋点到Kafka(一)

服务端埋点时事件模型建立基础数据模型有如下：列名详情公有字段：String account,long userId,long roleId,int roleLevel,String roleName,String channelKey,String deviceId,int gender,int serverId,long createTime,String logName(用户账户,用户账户ID,角色ID,角色等级,角色名称,渠道,设备ID,性别,服务器id,创建时间，日志名)

2021-06-23 09:55:12 695

原创一次基于Vue的Vedio.js使用

遇到的问题1.由于采用了分页，所以在两次切回到较小的页码时，会有warning警告，提示player对象已经被初始化过。2.如果调用对象销毁之后，对应的DOM节点也同时会被销毁，根据id获取节点会报找不到对应元素//以下是解决方法 initVedio() { //初始化视频方法循环列表获取每个视频的id if(this.tableData.length>0){ //在初始化vedio前

2021-06-15 16:57:36 391

原创 CDH 6.3.2 搭建流程

机器准备（以4台机器进行说明）安装操作系统，笔者以Centos7.8进行测试笔者采用UltraISO进行系统安装，采用mini模式。接下来进行了基本配置，包括ip,网络，时间同步等等下面为其中一些操作： sodu vi /etc/hosts############# xxx.xxx.xx.xx1 mycluster.master xxx.xxx.xx.xx2 mycluster.slave1 xxx.xxx.xx.xx3 mycluster.slave2 xxx.x

2021-06-08 19:15:13 239

原创对离线数仓的整个数据流程架构整理

对离线数仓的整个数据流程架构整理业务背景基于游戏的数据分析业务，对玩家的统计信息进行分渠道，分服务器的灵活即时查询。并可以实时响应相关统计指标的明细查询，实现数据的钻取。技术选型整个大数据分析平台选用业内较为流行的CDH进行部署，相关组件的使用，根据业务需要，进行相应的添加。流程架构图...

2021-06-08 18:16:12 537

原创 Mybatis的update返回值问题

Mybatis的update返回值Mybatis执行update后返回num与在数据库中直接执行时返回的值不同，在数据库中执行显示affect的行数为0，Mybatis中显示>0== 实际上，Mybatis中的返回值为sql语句匹配上的条数，并不是affected的条数==在Mysql的连接路径上加上参数?useAffectedRows=true便可以在Mybatis中返回affect条数...

2020-11-26 21:49:11 1319

原创运行Docker Toolbox terminal无法找到bash.exe

运行Docker Quickstart Terminal快捷方式时出现windows找不到bash.exe,可能是因为找不到git 的bash.exe的所在路径，只需右键-》属性-》快捷方式-》目标，然后修改git的相应路径即可。...

2019-10-05 13:09:10 684

原创读取配置文件的三种方式

1、FileInputStream(“src/xxx.xx”); 只适用于像java这种未发布的工程 2、this.getServletContext().getResourceAsStream(“xxx.xx”); 只适用于servlet中使用，使用时配置文件应放在WebContent中 3、xxx.class.getClassLoader().getResourceAsStream(“...

2018-09-05 23:12:50 550

c_jhsp的博客