![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
文章平均质量分 58
大数据spark
奋斗的IT小白菜
这个作者很懒,什么都没留下…
展开
-
如何查看Spark日志与排查报错问题
一、各界面说明1.1、查看YARN页面的driver日志可以在右侧搜索框中填对应application号找到任务,然后点击对应的application号链接,如下图所示:这样会进入该application的信息界面,“FinalStatus”显示了该application的最后状态,点击下方的“logs”按钮也会进入到driver日志界面,如下图所示:对于driver日志而言,代码中的**println()和show()等函数的输出,一般都在stdout里,大部分重要的报错信息都在stderr里转载 2021-06-29 16:28:16 · 3846 阅读 · 0 评论 -
spark使用Calendar类循环天数执行
spark一般批处理通过指定时间段来执行,但是有需要当天计算依赖于前天计算结果,只能一天一天计算。通过脚本不断提交spark程序效率太低。于是,通过使用Java类库:Calendar类 来实现import java.util.Calendarobject Test_Day { private var logger: org.slf4j.Logger = _ def main(args: Array[String]): Unit = { logger = LoggerFactor.原创 2021-05-07 14:57:34 · 401 阅读 · 0 评论 -
spark使用GeoIP2离线批量将ip转换出国家
离线批量数据,频繁请求接口匹配国家,不太合适,这里使用离线库方式。离线库下载地址 :https://download.csdn.net/download/qq_36470898/16103168由于需要定时任务执行,我把库上传到hdfs,并通过mapPartitions 方式匹配出国家依赖: <dependency> <groupId>com.maxmind.geoip2</groupId> <artif原创 2021-03-26 11:08:09 · 471 阅读 · 2 评论 -
HDFS_FileSystem(scala)类介绍
HDFS_FileSystem(scala)类介绍导入配置文件listStatuslistFilesFileSystem api: http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html LocatedFileStatus 是 FileStatus 的子类import org.apache.hadoop.fs.FileSystem下面就对常用方法进行举例:导入配置文件首先,创建工程到入had原创 2021-02-03 14:57:27 · 680 阅读 · 1 评论 -
spark解析嵌套JSON数组
spark解析嵌套JSON数组一 数据示例二 拆分数据三 拆分嵌套子json一 数据示例数据是带有时间戳的json数组数据格式: xxx|[{},{}]1610352196000|[{"cp_game_id":1658,"category":"cp_api","event":{"event_time":1610348596000,"event_name":"dungeon_flow"},"data":{"role_name":"xiaohao","role_vip":10,"dungeon_ty原创 2021-01-11 18:30:59 · 2255 阅读 · 0 评论 -
本地IDEA连接服务器hive连接不上出现org.apache.hadoop.hdfs.BlockReaderFactory - I/O error constructing remote block
在idea中运行SparkSQL,要连接服务器部署的Hive出现下面问题 WARN Executor task launch worker for task 0 org.apache.hadoop.hdfs.BlockReaderFactory - I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information原因:客户端创建文件先访问原创 2020-11-17 14:38:06 · 3758 阅读 · 0 评论 -
Spark使用SparkSession读写数据库
一、SparkSession与SparkContext首先介绍一下sparkCsss原创 2020-04-13 00:12:23 · 4737 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
敲黑板 ,引入的依赖 一定要 “compile” 或则 “runtime”,否则spark conf 无法初始化,这辈子也运行不了,千万不要是 “provided". <dependency> <groupId>org.apache.spark</groupId> <artifactId>...转载 2020-03-22 17:44:27 · 523 阅读 · 0 评论 -
SSH登录Linux Centos7好慢解决办法
问题:使用ssh登陆 centos,特别的慢,等至少几十秒才登陆进去。解决办法:修改 /etc/ssh/sshd_config 配置,将 useDNS 的值设置为 no ,如果文件中没有,则末尾加入一段useDNS no 即可。//需要有root修改权限vi /etc/ssh/sshd_config再执行重启 sshd,命令 systemctl restart sshd...转载 2020-03-05 14:18:31 · 610 阅读 · 0 评论 -
运行spark出现java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)
出现这个问题原因是原因Maven导入的spark依赖的是Scala版本和本地版本不一致。这里我导入的Maven导入的spark依赖的是Scala版本是2.11而本地是2.12 <dependencies> <dependency> <groupId>org.apache.spark</groupId> ...原创 2020-02-10 20:44:01 · 1990 阅读 · 0 评论