heheha_zj
码龄7年
关注
提问 私信
  • 博客:71,165
    71,165
    总访问量
  • 30
    原创
  • 678,389
    排名
  • 15
    粉丝
  • 0
    铁粉

个人简介:大数据小菜鸟

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-01-09
博客简介:

hello_heheha的博客

查看详细资料
个人成就
  • 获得27次点赞
  • 内容获得4次评论
  • 获得117次收藏
  • 代码片获得467次分享
创作历程
  • 2篇
    2023年
  • 7篇
    2022年
  • 5篇
    2021年
  • 4篇
    2020年
  • 10篇
    2019年
  • 3篇
    2018年
成就勋章
TA的专栏
  • 数仓
    11篇
  • DataX
    1篇
  • Elasticsearch
    1篇
  • Spark
    2篇
  • Maven
    1篇
  • 大数据
    6篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

353人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hadoop集群升级(3.1.3 -> 3.2.4)

Hadoop集群版本升级
原创
发布博客 2023.11.25 ·
967 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

在dss中运行scala任务报java.lang.NullPointerException: null

在dss中运行scala任务报java.lang.NullPointerException: null
原创
发布博客 2023.03.19 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 数据导入和导出

hive数据导入与导出,Sqoop数据导入与导出
原创
发布博客 2022.08.16 ·
417 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell实现日期加减

shell实现日期加减
原创
发布博客 2022.06.30 ·
5280 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Hive多字段数值比较大小

Hive多字段数值比较大小、COALESCE函数(返回第一个非空值)、least函数(返回最小值)、greatest函数(返回最大值)
原创
发布博客 2022.06.30 ·
4435 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

hive日期函数

日期函数
原创
发布博客 2022.06.30 ·
816 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Mysql row_number() | rank() 实现

Mysql row_number() | rank() 实现
原创
发布博客 2022.06.30 ·
363 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

DataX数据的迁移(MySQL、HDFS,Hive)

发布资源 2022.04.12 ·
zip

Hive处理Json相关数据

get_json_object 函数此函数为常用函数,可以取出json数据中的相应的字段的数值-- get_json_object(json,'$.name') as nameselect get_json_object('{"name":"zj","age":25}','$.name') as name ,get_json_object('{"name":"zj","age":25}','$.age') as age;select get_json_object('{"name":"zj","a
原创
发布博客 2022.04.12 ·
1351 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 表字段数据修改

hive字段信息修改修改表注释ALTER TABLE table1 SET TBLPROPERTIES('comment' = '每日背书企业成交明细(去重)');增加字段alter table table1 add columns(bonus varchar(255) comment '奖金');alter table table1 add columns(bonus varchar(255) comment '奖金') cascade; -- 适用于分区表联级机制cascadeca
原创
发布博客 2022.04.12 ·
9736 阅读 ·
2 点赞 ·
0 评论 ·
20 收藏

Hive 行转列、列转行

hive 行列之间数据相互转换
原创
发布博客 2021.12.21 ·
770 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

DataX将HDFS数据迁移到Mysql中NULL值的处理

DataX将HDFS数据迁移到Mysql中NULL值的处理
原创
发布博客 2021.12.18 ·
4402 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

Spark | HDFS 本地调式时出现:Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continu

出现原因21/11/16 15:13:17 WARN BlockReaderFactory: I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information......Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continue. ja
原创
发布博客 2021.11.16 ·
3385 阅读 ·
4 点赞 ·
2 评论 ·
3 收藏

Hive UDF GDF UDTF编写与实现

hive 自定义函数实现UDF | GDF | UDTF 区别UDF:一进一出(hive3 已经废除)GDF:一进一出(hive3 支持的GDF)UDTF:一进多出业务前景测试数据为:字符串(JSON数组格式 [{},{},{}] )[{\"title\": \"转让背书\", \"endorseName\": \"山东泰山钢铁集团有限公司\", \"endorseeName\": \"山东汶汇港物流有限公司\", \"isTransfer\": \"可以转让\", \"endorseDa
原创
发布博客 2021.11.11 ·
2196 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

centos6 的 hadoop三台集群的搭建

三台的hadoop分布式集群的搭建:如果你要部署一个高可用的完全分布式集群请参照:我的博客:Hadoop完全分布式集群搭建过程(HA高可用)https://blog.csdn.net/hello_heheha/article/details/998883301,修改主机名分别为:master slave1 slave22,配置/ etc / hosts(三台都要修改)...
原创
发布博客 2021.11.11 ·
529 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

大数据面试题汇总

大数据面试题-20200607简答题+面试题HashMap和HashTable的区别Scla中的Case class作用数据仓库分层概念数据分层概念数据分层为倒三角,从上到下依次为ODS层(原始数据层)、DWD层(明细数据层)、DWS层(服务数据层)、ADS层(数据应用层),数据量是从多到少,从复杂化到简单化。ODS层:原始数据层、存放原始数据,直接加载原始日志信息,数据, 数据保持原貌不做处理DWD层(DWI层):结构和粒度与原始数据保持一致,对ODS层数据进行数据清洗(去空值、脏数据、
原创
发布博客 2020.09.22 ·
607 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Elasticsearch学习笔记

ES简介Elasticsearch:全文检索引擎,快速存储,检索、和分析海量数据底层是由Lucene支持Lucene开放的源代码的全文检索引擎工具包,不是完整的全文检索引擎,而是一个全文检索的引擎架构,特点:完整的查询完整的索引部分具有文本分析Lucene提供了一个简单缺强大的应用程序接口ES基本概念P:Primary shard 主分片R:Reaplication shard 备用分片一个cluster存在一或者多个node组成,每个集群都有一个cluster.n
原创
发布博客 2020.09.22 ·
262 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

join和union的区别

join和union的区别union和join是需要联合多张表时常见的关联词,join:两张表做交连后里面条件相同的部分记录产生一个记录集,union:union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。join的连接方式(left join\left outer join) \ right join \right outer join \inner join......
原创
发布博客 2020.03.27 ·
14169 阅读 ·
5 点赞 ·
0 评论 ·
36 收藏

Spark的ReduceByKey和GroupByKey的区别

Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理,无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey:说白了就是带有Commbiner的操作,也就是说ReduceBykey会减少Map端的输出,在Map端输出的时候...
原创
发布博客 2020.01.31 ·
334 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Maven设置指定jar包依赖版本信息

我们在配置Spark core 的 maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</ar...
原创
发布博客 2019.12.12 ·
9067 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多