自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 sqoop重点总结

Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。Ads层数据用Sqoop往MySql中导入数据的时候,如果用了orc(Parquet)不能导入,需转化成text格式。5、Sqoop数据导出的时候一次执行多长时间。6、Sqoop在导入数据的时候数据倾斜。

2023-05-24 20:14:23 175 1

原创 大数据Flume面试(精选题)(附答案)

单机 upd 的 flume source 的配置,100+M/s 数据量,10w qps flume 就开始大量丢包,因此很多公司在搭建系统时,抛弃了 Flume,自己研发传输系统,但是往往会参考 Flume 的 Source-Channel-Sink 模式。根据 Flume 的架构原理,Flume 是不可能丢失数据的,其内部有完善的事务机制,Source 到 Channel 是事务性的,Channel 到 Sink是事务性的,因此这两个环节不会出现数据的丢失,唯一可能丢失数据的情况是 Channel。

2023-05-24 20:00:19 437 1

原创 hive面试题(精选)(附答案)

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL),hive的研发是为了避免了去写MapReduce,提供快速开发的能力,减少开发人员的学习成本。

2023-05-16 09:11:25 1653 1

原创 hadoop面试题(大数据)(附答案)

Hadoop是一个开源分布式计算平台架构,基于apache(阿帕奇)协议发布,由java语言开发。主要包括运行模式:单机版、伪分布式模式、完全分布式模式

2023-05-13 14:38:07 3498

原创 Python从入门到就业(详细)

Python是用来定义 计算机程序 的形式语言。我们通过编程语言来编写程序代码,再通过语言处理程序执行向计算机发送指令,让计算机完成对应的工作。

2023-05-09 20:29:21 153 1

原创 HBase错误:PleaseHoldException: Master is initializing解决办法

先说版本,jdk版本只要是1.8即可。

2023-05-08 11:26:41 287 1

原创 Hbase从入门到精通

HBase 的原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为 Hadoop的子项目来开发维护,用于支持结构化的数据存储。

2023-05-08 10:26:28 255 1

原创 Flume先入土后入门

java运行环境-java1.8或更高版本内存-为源,通道或接收器的配置提供足够的内存磁盘空间- 为通道或接收器使用的配置提供足够的磁盘空间目录权限- 代理使用的目录的读/写权限。

2023-05-05 09:18:05 147 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除