大数据生态应知应会
文章平均质量分 89
这个人很懒,什么都没有留下。
大数据程序终结者
我先说好,我发的需求案例都是经过我测试的,具有普遍代表性的案例,如果有问题请检查环境配置。
展开
-
错行乱行文本处理方法正则及命令
例如,如果CSV文件在Windows环境下编辑过,可能包含回车符,使用这个命令可以将其删除,得到一个没有行尾回车符的文件。: 这是一个替换命令,使用正则表达式匹配每个逗号后面是17位数字或15位数字的部分,并在匹配到的部分之前插入换行符。: 这是一个替换命令,使用正则表达式匹配每个逗号后面是8位数字的部分,并在匹配到的部分之后插入换行符。后面是17位数字或15位数字(带换行符),然后在匹配到的部分之前插入换行符,用于提取身份证号。中匹配到逗号后面是8位数字的部分,然后在匹配到的部分之后插入换行符。原创 2023-12-26 23:12:50 · 929 阅读 · 0 评论 -
ElasticSearch5.6.2常用transport client Java API操作代码实例
ElasticSearch5.6.2常用transport client Java API操作代码实例。原创 2023-12-17 16:01:51 · 525 阅读 · 0 评论 -
Flink面试题持续更新【2023-07-21】
需要注意的是,Spark 3.0引入了Structured Streaming,它在Spark Streaming的基础上进行了重构,以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是,除了默认的消息语义之外,Flink和Spark Streaming都提供了灵活的配置选项和API,允许根据具体的应用需求调整消息语义级别。这意味着数据写入和状态保存是原子性的,要么同时成功,要么同时失败。Flink的分区策略对于作业的性能和效率非常重要,正确选择和使用分区策略可以显著提高作业的处理速度和可靠性。原创 2023-07-21 13:57:13 · 1480 阅读 · 0 评论 -
Kafka面试题持续更新【2023-07-14】
Kafka面试题持续更新原创 2023-07-11 11:41:21 · 1217 阅读 · 0 评论 -
Hbase应知应会【2023-08-16】
顺序性:在HBase中,相邻的行键会存储在相邻的Region中,因此,设计Row Key时应尽量考虑数据的访问模式,使得相关的数据能够存储在相邻的位置,以提高查询的效率。预分区的作用是为了解决当一个 region 的大小超过一定的阈值时就会发生 split 的操作,这个过程会消耗大量的磁盘及网络 I/O,因此我们虽然需要 split 带来的稳定的查询性能但是又不希望花费 split 带来的 I/O cost,预分区就可以很好的解决这个问题。避免使用过长的Row Key,以减少存储空间的占用和索引的开销。原创 2023-07-11 11:39:39 · 728 阅读 · 0 评论 -
Linux大数据Hadoop生态组件常用命令速查手册
Spark3.2.0jdk1.8Sqoop1.4.6MySQL5.7Hive3.1.2Kafka0.11Flume1.9.0Hbase2.4Redis6.2.0Dlink0.7.3Hadoop11,12,13集群文章中没有明确说明关闭命令的皆使用kill的方式关闭应用或服务。原创 2023-06-23 17:55:26 · 537 阅读 · 0 评论 -
Hive面试题持续更新【2023-07-07】
通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。Hive中的开窗函数基于窗口(Window)的概念,窗口定义了数据集中的一部分数据子集,用于指定计算聚合或分析的范围。元数据(Metadata)存储:Hive使用元数据来描述数据的结构和模式,以及数据存储的位置等信息。原创 2023-06-20 16:53:41 · 832 阅读 · 0 评论 -
Spark面试题持续更新【2023-07-04】
ChatGPTmap:对RDD中的每个元素应用一个函数,并返回一个新的RDD。该函数可以是任意的用户自定义函数或Lambda表达式。例如,可以将RDD中的每个元素乘以2。filter:基于一个条件对RDD中的元素进行过滤,并返回一个新的RDD,只包含满足条件的元素。该条件可以是一个用户自定义函数或Lambda表达式。例如,可以过滤掉RDD中的负数元素。flatMap:对RDD中的每个元素应用一个函数,返回一个包含零个或多个元素的新RDD。该函数可以生成多个输出元素,这些元素将被扁平化成一个单一的RDD。原创 2023-06-16 09:15:33 · 383 阅读 · 0 评论