![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 73
wenqingCoder
这个作者很懒,什么都没留下…
展开
-
基于spark+hudi测试腾讯cos&hdfs读写小文件性能
使用spark读写hudi on cos时发现读写速度非常慢,但因业务场景需要使用二级分区,必定会产生很多小文件,于是测试spark读取cos与hdfs上小文件的性能原创 2021-11-18 16:17:38 · 2074 阅读 · 0 评论 -
使用腾讯云EMR spark程序通过内网VPC方式访问亚马逊S3
部分业务数据存放在亚马逊S3上,但大数据集群是购买腾讯云emr,希望通过内网专线从腾讯云emr上读取S3的数据写入基于腾讯云cos的hudi中; 亚马逊云s3外网访问速度非常慢,极大概率出现访问超时情况,并且数据传输非常不安全,需要使用专线通过亚马逊提供的interface的VPC endpoint进行访问,但是在此环境下,通过配置S3 bucket访问秘钥来读取数据报错原创 2021-11-17 15:07:04 · 1778 阅读 · 5 评论 -
SparkStreaming项目中遇见的报错
1.kafka自动提交偏移量失败19/04/15 00:46:00 WARN ConsumerCoordinator: Auto offset commit failed for group testGroup: Commit cannot be completed since the group has already rebalanced and assigned the partitio...原创 2019-05-05 15:00:22 · 684 阅读 · 0 评论 -
BigData 基础Day3 (机器语言)
二进制数 1.根据计算机中信息的编码表示方式,将数据分为“定点数据”、“浮点数据”、“图形数据”和“文字数据“定点数”是指小数点位置固定不变的数。如整数2700和纯小数0.123。“浮点数”是指小数点位置变化的数 如浮点数123.567。2.原码,补码,反码 原码首位是符号位 0为+ ,1为-;其余各位代码表示数值。 补码 表示法也是用最高一位代...原创 2018-07-29 21:06:54 · 186 阅读 · 0 评论 -
BigData 基础Day2 (Java基本语法)
1.Java语言基础组成关键字,标识符,注释,常量和变量,运算符,语句,函数,数组1.1 关键字被java赋予了特殊含义的单词。例:class,new,private,protected,public,static,final,abstract,interface,this,super,Intanceof,extends,implements,try,catch,finally,t...原创 2018-07-25 20:19:58 · 262 阅读 · 0 评论 -
BigData 基础 Day 1(计算机基础)
1.计算机基础1.1 用户操作 1.2 操作系统软件 通用目的: 硬件驱动 进程管理 内存管理 网络管理 安全管理1.3 软件程序与硬件的关系(1)软件程序 = 机器指令 + 数据(2)机器指令:是cpu硬件提供的一个具有基本功能点(如加法指令),计算机可以提供多种指令,这些指令组成的集合叫做“指令集”...原创 2018-07-24 19:55:57 · 251 阅读 · 0 评论 -
基于阿里云EMR初期集群选购指南
业务数据量 业务库:累计15G 日志:累计3T;日增量13G集群配置 方案制定:高可用(建议): 集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。方案: ...原创 2020-12-09 14:47:45 · 418 阅读 · 0 评论 -
HIVE数据仓库设计
一、目的将各业务部门的日志及必要的业务数据收集到大数据集群,以便进行统一的清洗规整、统计、建模,最终为公司管理层、业务部门提供经营分析、指标监控、推荐服务、公关数据等方面的能力支撑。二、设计原则1、合理:包括:规则合理、数据分层合理、流程合理。数仓越来越规范化,易于后续快速入手,保证数据的完整及安全,数据逻辑易修改。2、可控:包括:数据安全可控、问题定位可控3、迭代优化:可持续优化三、数据分层 分层 说明 ..原创 2020-12-09 14:41:14 · 1122 阅读 · 0 评论 -
mysql表自动导入hive脚本-01自动hive建表
1.创建mysql表保存mysql以及hive的配置信息 此配置信息表字段包括但不限于以下字段create table `t_auto_mysql2hive_info` (`id` int UNSIGNED AUTO_INCREMENT PRIMARY KEY COMMENT '自增id',`author` varchar(64) NOT NULL DEFAULT '' ...原创 2019-08-27 12:08:43 · 1471 阅读 · 0 评论