大数据学习之旅
文章平均质量分 56
由浅入深学习hadoop,hive
Logan_addoil
种一棵树最好的时间是十年前,其次是现在
展开
-
hive SQL谓词下推
谓词下推原创 2024-04-17 11:23:26 · 603 阅读 · 0 评论 -
hive的小文件如何处理
hive小文件处理思路原创 2024-03-21 15:27:33 · 462 阅读 · 0 评论 -
sqoop处理数据量过大导入
sqoop处理超大数据量原创 2024-03-19 14:07:53 · 326 阅读 · 0 评论 -
数据仓库的两种建模方法
范式建模和维度建模原创 2024-03-19 13:59:29 · 1287 阅读 · 0 评论 -
sqoop两种导入方式
sqoop两种导入方式原创 2024-03-19 13:43:47 · 350 阅读 · 0 评论 -
pyspark 执行 lcs
pyspark 提交到集群执行原创 2024-03-16 09:50:22 · 306 阅读 · 0 评论 -
hive 中少量数据验证函数的方法-stack
stack,lag,lead原创 2024-03-01 15:48:52 · 1049 阅读 · 0 评论 -
hive中插入数据的字段本身是String,但插入Int类型
数据插入转换原创 2024-02-25 09:40:56 · 333 阅读 · 0 评论 -
hive - explode 用法以及练习
explode 的用法以及练习原创 2024-01-26 16:31:08 · 521 阅读 · 0 评论 -
TF-IDF 找出文章关键词
tf-idf原创 2024-01-23 16:28:31 · 474 阅读 · 0 评论 -
文本相似度计算
文本向量余弦相似度原创 2024-01-23 16:06:48 · 467 阅读 · 0 评论 -
hive 用户自定义函数udf,udaf,udtf
自定义udf函数原创 2023-12-20 16:08:00 · 740 阅读 · 0 评论 -
Spark的stage源码解析
Spark的stage源码解析转载 2023-12-20 14:12:18 · 53 阅读 · 0 评论 -
MapReduce 的 shuffle 与 spark的 shuffle 有什么区别?
MapReduce的shuffle与spark的shuffle有什么区别原创 2023-12-20 13:03:24 · 585 阅读 · 0 评论 -
spark-常用算子
spark常用算子原创 2023-12-16 16:16:21 · 1093 阅读 · 0 评论 -
hive 常见存储格式和应用场景
常见存储格式和应用场景原创 2023-12-15 17:56:38 · 625 阅读 · 0 评论 -
大数据之旅-问题反思
一些问题和反思原创 2023-12-14 17:38:15 · 819 阅读 · 1 评论 -
Scala-初学
初学scala原创 2023-12-12 12:24:32 · 528 阅读 · 0 评论 -
hive-窗口函数
hive 窗口函数原创 2023-12-11 13:34:51 · 1049 阅读 · 0 评论 -
MapReduce的执行过程(以及其中排序)
MR的执行过程以及排序原创 2023-12-09 12:21:50 · 599 阅读 · 0 评论 -
hive 命令行中使用 replace 和nvl2 函数报错
命令行使用 replace 和 nvl2 报错原创 2023-12-08 12:24:36 · 563 阅读 · 0 评论 -
hive 命令记录(随时更新)
hive会用到的命令,以及可能会用到的命令原创 2023-11-28 18:05:00 · 671 阅读 · 1 评论 -
hadoop集群环境搭建和常用命令
hadoop 集群搭建和常用命令原创 2023-11-28 16:23:07 · 549 阅读 · 0 评论