spark
lianchaozhao
这个作者很懒,什么都没留下…
展开
-
Hive、Spark SQL任务参数调优回顾
待todo原创 2022-03-02 15:35:46 · 2176 阅读 · 0 评论 -
sparkUI 详解记录
参考:https://www.jianshu.com/p/8143a50a5af9原创 2021-06-17 16:24:04 · 194 阅读 · 0 评论 -
spark的shuffer过程及升级过程
todo:总结转载https://www.cnblogs.com/itboys/p/9201750.html转载 2020-04-13 13:25:49 · 141 阅读 · 0 评论 -
面试分享(spark 实现每天访问的记录数和用户数)
最近收到一家公司面试题感悟:要求:用户访问日志文件有两列,分别为日期和用户ID :(date,user_id) 使用spark 统计每天访问记录数和用户数。1、每天访问记录数例子完成结果(2017-01-03,4)(2017-01-02,3)(2017-01-01,3)每天访问的用户数(当时没有太理解)估计面试官想问新增用户数具体实现结果为:实现思想 是一个倒排的思想1、...原创 2020-03-13 14:55:22 · 1090 阅读 · 0 评论 -
spark 源码分析(spark 触发Action 之后操作)
本例以wc 为例子 (akka 为rpc 通讯框架)1、我们进入savaAsTextFile 这个 action算子2、上面算子通过多层封装(其中包换数据 转换和创建一些读写流) 最后通过 runjob 方法的入口开始提交任务(其中包含DAG 任务的划分流程等将DAG 切分成多个stage 然后将stage 切分成不同task 任务最后提交任务)经过一系列的变换操作(通常增加一些提...原创 2019-12-12 18:03:36 · 406 阅读 · 0 评论 -
spark源码分析之任务本地化
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Executor去执行任务。这么理解没错,我搭建的Spark集群情况是这样:每台DataNode节点的HDFS集群,我在每个DataNode上都部署了一个Spark Worker,并且,启动Spark Ap...原创 2019-12-11 18:04:02 · 237 阅读 · 0 评论 -
spark主流程源码分析
1、spark 任务提交过程首先调用sprark-submit函数例子为 :bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://node-1.itcast.cn:7077 --executor-memory 2g --total-executor-cores 4该命令主要调用相应脚本下着 ...原创 2019-12-11 17:45:48 · 153 阅读 · 0 评论 -
CDH环境HDFS权限问题(root 赋值hdfs 用户权限)
CDH环境下Hadoop平台最高权限用户是hdfs,属于supergroup组。默认HDFS会开启权限认证,所以操作时,需要将root用户切换到hdfs用户,否则会报错。解决问题 :1、单独安装的软件没有(root 用户安装 没有hdfs权限)2、Hive和HBase读写hdfs,也很容易因为权限问题导致出错。解决方式但是关闭权限检查,任何用户都可以操作HDFS数据,数据安全性又没有保障...原创 2020-08-05 15:56:41 · 2827 阅读 · 0 评论 -
新环境 hive客户端 提交任务失败
环境:新安装cdh5.13.0engine : hive on spark正在服务器上运行hive然后提交sql (或写spark任务提交任务) 总是失败。hive> select count(*) from ods_finance_plan_sub_point_log_test limit 10;Query ID = hdfs_20191127174545_293f89bd-327...原创 2019-11-27 18:02:03 · 669 阅读 · 0 评论 -
spark-streaming 获取 flume 传递的header
环境:cm 5.13.0flume 和kafka 为 cm 自动安装spark-streaming 通过远程安装的版本为 2.2.0flume+kafka+spark-streaming,应该说这一套架构已经成为流式计算的标配了。具体配置为 采集数据的flumeagentcollector.sources = taildir-sourcecollector.channels = f...原创 2019-01-21 15:20:58 · 610 阅读 · 2 评论 -
linux 对特定 服务器 开放特定端口
在 spark ui 中出现某个端口不能访问的问题解决:由于跨内网外网安全问题技术选型为 ,部署一台window 系统 虚拟机(可以远程访问并且这个虚拟机和hodoop 集群属于同一内网)然后 在hadoop 集群的节点对这台虚拟机的 ip 开放指定端口命令为root 用户下vi /etc/sysconfig/iptables添加 (对192.168.0.125开放 8042端口...原创 2019-03-14 16:12:08 · 1384 阅读 · 0 评论 -
cloudera HiveServer2 备份安装
1在cloudera 中 选择 添加服务2选择 hiveserver2 要安装的主机3在 其已经安装有 hiveserver2的机子上安装 spark 客户端(一般cloudera 中我们会选择 hive on spark )4然后在启动已经安装好的 hiveserver2 的服务(注意先后顺序 ,先在其对应机子上安装 spark 客户端之后 再启动 hiveserver2 服务 否则会使...原创 2019-03-07 16:16:31 · 192 阅读 · 0 评论 -
hive 提交到 yarn 任务 方式 和 spark UI 不能收集日志问题
1.通过本地客户那端命令连接hive -e ‘select count(*) from *** where ***’或者 本地 敲命令 hive 然后 写 sql方式或者bin/hive -e “HQL语句,多个语句用;隔开”; //-e表示直接写HQLhive-1.1.0-cdh5.14.0]# bin/hive -f /export/servers/hive-study-da...原创 2019-03-13 15:51:55 · 1879 阅读 · 0 评论 -
zeppelin 部署 遇到的坑
1、先上图spark的配置1、zeppelin-env.sh 荷叶面配置master不统一 找了很久 UI 配置 yarn-clientdatanode (nodemanger) 没有配置 相应路径没有 spark包环境 (解决统一 装spark Getway 然后卸掉 相应路径下有相应的包)...原创 2019-06-27 18:31:29 · 852 阅读 · 0 评论 -
zeppelin中spark结合pyspark 常出现问题
问题:zeppelin 运行程序过程中经常出现AttributeError: ‘NoneType’ object has no attribute ‘sc’和‘NoneType’ object has no attribute ‘setJobGroup’主要原因:在zeppelin 中不能一次性开多个sc(SparkContext),因为之前已经存在一个Spark Contexts,所...原创 2019-07-03 20:52:23 · 1142 阅读 · 0 评论 -
spark LDA主题模型
LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA可以用来生成一篇文档,生成时,每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”,这样反复进行,就可以生成一篇文档;反过来,LDA又是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题。参考:http://bigdata-star.com/archives/1863...原创 2019-07-10 13:45:20 · 387 阅读 · 0 评论 -
Container killed by YARN for exceeding memory limits
经常我们提交任务到 yarn上后出现 内存溢出的错误 类似ExecutorLostFailure (executor 7 exited caused by one of the running tasks) Reason: Container killed by YARN for exceeding memory limits. 11.1 GB of 11 GB physical memory ...原创 2019-01-11 15:52:22 · 9834 阅读 · 0 评论