大数据
anickname
专注大数据技术
展开
-
CLA not signed yet
参加github上的开源项目,需要github账号,这是必须的。同时公司内部搭建了个git服务器,每个人都有一个git账号往公司的git服务器push 或者 pull代码。参加开源项目提交代码时,不慎使用了公司的git账号提交导致CLA验证的时候过不去(验证提交代码的user_name),这个时候需要修改本地单独开源项目的user_name和user.email。进入本地仓库目录,查看:git config user.namegit config user.email或者git config原创 2021-09-27 12:57:08 · 2565 阅读 · 0 评论 -
Azkaban2.0配置运行Java Job传参,指定JVM内存
nodes: - name: java_xhs_keyword_comment type: javaprocess config: java.class: com.jxz.dw.entry.SyncEntry classpath: /home/ops/dw_sync-1.0.jar main.args: xhs_keyword_comment 2021-09-07 jvm.args: -Xms4096M -Xmx4096Mflow中的主要配置如上。.原创 2021-09-07 18:02:04 · 607 阅读 · 0 评论 -
五个不需要使用大数据的理由!
现在的大数据是热火朝天,最开始是在新兴互联网行业兴起,随着企业和国家的重视,越来越多的企业或者说传统企业也开始重视起来,我经历过一些大数据项目经验,结合所做项目总结五点需要使用大数据的理由。1.数据量不大。业务系统源数据量不足1T,关系型数据库足够存储。2.数据结构化。Hadoop的真正价值在于处理大数据量的半结构化或非结构化数据。比如网页,日志等。3.响应速度不高。只是做原创 2016-02-02 15:24:30 · 738 阅读 · 0 评论 -
HBase学习之六: hbase的预分区设计
背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消...原创 2018-05-22 11:43:24 · 38388 阅读 · 17 评论 -
HBase学习之七: 如何定位一条记录所属region,如何查看一个region的数据量,如何查看一个Cell的所有版本
1.如何定位一条记录所属regionHTable table = new HTable(conf, "testhbase");HRegionLocation location = table.getRegionLocation("01-1468404017235-1320");HRegionInfo rg = location.getRegionInfo();String regi原创 2016-07-14 22:34:48 · 9423 阅读 · 0 评论