![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据分析
淅淅沥沥的熙
这是我的个人博客:https://xilixili.github.io/
展开
-
关于运行官方Spark Streaming 实例代码的坑
在本地运行Spark Streaming程序时,不要使用“local”或“local[1]”作为主节点URL。这两种方法都意味着只能使用一个线程在本地运行任务。如果你用基于receiver 的输入dStream(例如套接字、Kafka、Flume等),然后使用单个线程来运行receiver ,不留下任何线程来处理接收到的数据。因此,当你在本地跑程序时,始终使用“local[n]”作为主节点URL,其中n>接收器要运行的数量(有关如何设置主机的信息,请参见Spark Properties)。将逻辑扩展原创 2018-07-08 21:32:05 · 2005 阅读 · 3 评论 -
Spark中的宽依赖和窄依赖
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应...转载 2018-07-09 20:01:01 · 316 阅读 · 0 评论 -
.sbt文件的配置详解
一个简单的build.sbt文件内容如下:name := "hello" // 项目名称organization := "xxx.xxx.xxx" // 组织名称version := "0.0.1-SNAPSHOT" // 版本号scalaVersion := "2.9.2" // 使用的Scala版本号// 其它build定义其中, name和version的...转载 2018-07-16 13:39:21 · 4497 阅读 · 0 评论 -
用Spark rdd进行针对性权重的分析
在信息匹配的环节,有根据权重进行匹配的需求。用户输入的字段有:(job_name(期望工作),city(期望工作城市),sala(期望工作薪水),self_jy(个人经验),self_xl(个人学历))我们希望通过以上条件实现智能化的匹配。具体思路如下:在spark分析程序中将读取Hbase中企业招聘信息到RDD中,利用RDD的一系列算子实现最终的智能匹配,在对工作名的分析中,调用了nlpir自然...原创 2018-07-07 16:05:39 · 523 阅读 · 1 评论