![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 72
士弘毅
干一行,爱一行,玩坏一行
展开
-
Spark 超大数据量下OOM的解决
Spark 超大数据量下OOM的解决原创 2023-02-21 18:02:44 · 2193 阅读 · 0 评论 -
spark-sql处理json字符串的常用函数
spark-sql处理json字符串的几个常用函数原创 2022-11-01 16:44:58 · 6107 阅读 · 0 评论 -
解决maven版本冲突——maven-shade
maven中依赖的某个jar包存在依赖多版本时,Could not initialize class的解决方案——maven-shade原创 2022-10-25 17:45:12 · 4375 阅读 · 1 评论 -
Linux运行shell脚本,报错 line x: 某变量: command not found 问题解决
1. 权限问题如果报错 -bash: ./test.sh: Permission denied可以通过下面的命令添加权限:chmod u+x test.sh或chmod a+x test.sh2. 文件格式问题如果报错 command not found按照如下命令,依次输入,三步修改格式:vi test.sh:set ff=unix(改格式):wq(保存)3. 文件问题【大坑】如果报错 line x: 某变量:command not found这里原创 2022-05-25 17:10:28 · 3034 阅读 · 0 评论 -
No FileSystem for scheme:hdfs and Class org.apache.hadoop.DistributedFileSystem not found
在获取 Hadoop 文件系统对象时,如下所示 FileSystem fs = FileSystem.get(hdfsUrl,configuration);错误一如果收到以下错误:"No FileSystem for scheme:hdfs"可以通过在配置中设置以下 2 个属性来解决它configuration.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");configuration.s原创 2022-04-21 16:12:16 · 3022 阅读 · 0 评论 -
spark踩坑记录 (一) group by
mysql与sparksql语法大致相通。但是会有一些坑存在。比如groupby需求场景:在视屏表中,取每个作者最新的一条数据。即, 筛选出所有user_id对应的最新的(通过create_time倒序取)一条数据。mysql中:select user_id,site,create_timefrom ( select user_id, site, create_time from tv_push_video w......原创 2021-09-14 16:20:32 · 2788 阅读 · 1 评论 -
HBase是怎样找到某个rowkey
【摘要】 本文介绍HBase根据时间戳和查询列信息对HFile做一次过滤,缩小查询范围,查找rowkey的处理过程。 1 定位到某个region内的store HBase的 Hmaster会处理并分配region分区(根据rowKwy),相应的元数据都会存在Zookeeper里面。其中每个region的元数据中 都会存储两个属性:start-key 和 end-key,根据这个区间就能查到rowKey对应在哪个region。 region里再根据不同的列族(C...原创 2021-06-25 12:06:25 · 2963 阅读 · 2 评论