自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 idea无法切换中文输入法

系统:CentOS7 输入法:CentOS7自带ibus 解决方法: 进入idea软件根目录下的bin文件夹,找到启动文件idea.sh。 使用vim或者vi命令打开: 在注释之后添加: export XMODIFIERS=”@im=ibus” export GTK_IM_MOD...

2019-05-30 23:41:19

阅读数 357

评论数 0

原创 hive——3. hive实例:搜狗用户搜索日志

数据来源: 搜狗实验室官方网站的用户查询日志,http://www.sogou.com/labs/resource/q.php 第一列:搜索时间 第二列:用户ID 第三列:搜索内容 第四列:搜索内容出现在搜索结果页面的第几行 第五列:用户点击的是页面的第几行 第六列:用户点击的超...

2019-05-30 23:40:17

阅读数 59

评论数 0

原创 spark sql——6. spark sql操作hbase

目标: 在hbase建一张表,使用spark sql操作它 参考: https://blog.csdn.net/eyeofeagle/article/details/84571756 https://blog.csdn.net/eyeofeagle/article/details/89...

2019-05-30 23:10:22

阅读数 109

评论数 0

原创 spark sql——5. spark sql操作mysql表

目标: 1.jdbc到mysql,读mysql的表并load成dataframe 2.对dataframe执行dsl、sql语句 3.两张表的连接查询操作 4.另存dataframe为表,保存到mysql spark自带的案例在: /examples/src/.../sql/SQL...

2019-05-30 23:08:48

阅读数 299

评论数 0

原创 spark sql——2. 实例:spark sql操作hive表

hive表已经创建好了,详见: hive实例:搜狗用户搜索日志 配置: 1. 把core-site.xml和hive-site.xml复制到spark的conf目录下 core-site.xml在hadoop的配置目录下,hive-site.xml在hive的配置目录下 2. 把mys...

2019-05-30 23:06:38

阅读数 174

评论数 0

原创 设置静态ip

centos7设置静态ip 1.设置网线连接的静态ip ifconfig可以看到原本的ip是192.168.32.129 修改它 /etc/sysconfig/network-scripts/ifcfg-ens33 修改两行: BOOTPROTO="static&...

2019-05-24 10:32:46

阅读数 115

评论数 0

原创 spark源码阅读——6. 性能优化

spark性能优化 1.数据序列化(serializer) spark提供两种序列化方式,一种是java序列化,另一种是Kryo序列化 java序列化比较灵活,但速度较慢,为了方便,spark默认使用java,可以更改为Kryo 对于大多数程序而言,Kryo序列化可以解决有关性能的大部...

2019-05-22 17:15:08

阅读数 101

评论数 0

原创 spark源码阅读——5. shuffle

shuffle是什么: 分布式计算中,每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全部数据,比如reduceByKey、groupByKey,那就需要把相同key的数据拉取到同一个分区,原分区的数据需要被打乱重组,这个按照一定的规则对数据重新分区的过程就是Shuff...

2019-05-22 17:14:32

阅读数 167

评论数 0

原创 spark源码阅读——4. checkpoint

checkpoint步骤: 1. 建立checkpoint存储路径 scala> sc.setCheckpointDir("hdfs://master:9000/checkpoint0727") 2. rdd1.cache() 3. rdd1.checkp...

2019-05-21 10:05:08

阅读数 91

评论数 0

原创 spark源码阅读——3. cache和persist

缓存策略 cache和persist 点进去cache,可以看到它调用了persist(),没有给参数, 也就是默认的缓存级别,MEMORY_ONLY 存储块block和partition关系 rdd的运算是基于分区partition的,partition是逻辑上的概念, blo...

2019-05-20 23:01:24

阅读数 110

评论数 0

原创 spark源码阅读——2. spark-submit流程

任务提交流程: 几个重要的概念: Application:用户构建的spark应用程序,包括驱动程序Driver和在工作节点上运行的Executor代码 Driver: 驱动程序,运行Application中的main函数并创建sparkcontext,sc是应用程序的入口 Executo...

2019-05-20 22:53:31

阅读数 98

评论数 0

原创 spark源码阅读——1. 集群启动流程

启动流程: 客户端执行启动命令:start-all.sh 1. 首先启动Master节点(master),找到配置的slaves文件,获得需要启动的slave节点 2. 然后启动Worker节点(slave1,slave2) 3. Master节点要求Worker节点向Master发送注册...

2019-05-17 23:40:56

阅读数 154

评论数 0

原创 spark源码阅读——0.构建spark源码阅读环境

构建spark源码阅读环境 在idea中找类的快捷键:两下shift spark源码地址:https://github.com/apache/spark 先下载下来,找一个目录,执行命令: git clone http://github.com/apache/spark 说白...

2019-05-17 23:39:12

阅读数 152

评论数 0

原创 运行spark——运行自带案例

run-example运行自带案例 在spark的bin目录下执行:run-example + 类名 ./run-example org.apache.spark.examples.SparkPi 还有其他的例子都在examples目录下

2019-05-17 23:36:51

阅读数 253

评论数 0

原创 mllib——实例3:ALS算法

ALS 是 spark 的协同过滤算法,已集成到 Spark 的 mllib 库中 数据ALStest.data来自/spark/data/mllib/als/test.data import org.apache.spark.mllib.recommendation.Rating import...

2019-05-13 10:14:17

阅读数 167

评论数 0

原创 spark GraphX——PageRank

代码: package org.apache.spark.graphx.learning import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.graphx.G...

2019-05-05 22:10:17

阅读数 401

评论数 0

原创 SparkStreaming——实例4:窗口操作

窗口函数,window 使用窗口长度和滑动间隔来计算,假设窗口长度为3s,滑动间隔为2s, 每2s窗口滑动一次,旧数据就只剩最后1s的了,丢弃左边的2s数据, 右边进入新的2s的数据,计算此时新的3秒钟的数据。 滑动间隔默认等于批次间隔,如果要设置,滑动间隔必须是窗口间隔的整数倍。 ...

2019-05-04 23:05:27

阅读数 580

评论数 0

原创 SparkStreaming——实例3:带状态操作

带状态操作,updateStateByKey 实例1、实例2只是把这5s中产生的数据wordcount,也就是每5s统计一次这5s的数据, 而如果我们需要统计从一开始到现在产生的数据,就需要updateStateByKey updateStateByKey操作,可以让我们为每个key维护...

2019-05-04 23:04:34

阅读数 997

评论数 0

原创 SparkStreaming——实例2:批处理目录

简单: 使用textFileStream替代socketTextStream即可 可以向目录不断添加文件查看结果 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, Streamin...

2019-05-04 23:03:42

阅读数 566

评论数 0

原创 SparkStreaming——实例1:批处理网络上的数据

目的: 使用socketTextStream("192.168.0.160",9999) 接收192.168.0.160的9999端口数据,并wordcount 启动hdfs:start-all.sh 使用netcat向192.168.0.160的9999端口传送数...

2019-05-04 23:02:53

阅读数 573

评论数 0

提示
确定要删除当前文章?
取消 删除