Spark
文章平均质量分 85
ooobenooo
这个作者很懒,什么都没留下…
展开
-
基于Spark MLlib的TF-IDF与余弦定理应用 - 文档相似度
网上已经有很多优秀的TF-IDF和余弦定理介绍文章,这里就不重复了。简单记录一下如何利用这些原理结合Spark MLlib计算文档相似度。第一步:从文档中提取词Spark MLlib - Tokenizer.class // 默认根据空格分割提取词/** * A tokenizer that converts the input string to lowercase and then splits it by white spaces. * * @see [[RegexTokenize原创 2020-08-24 13:44:42 · 249 阅读 · 0 评论 -
运行Spark GraphX Pregel出现Issue communicating with driver in heartbeater异常
最近基于Spark GraphX Pregel开发了一个ETL任务,运行过程中会报Issue communicating with driver in heartbeater,然后就是Connection refused错误。经分析,Spark GraphX Pregel在每次迭代都会产生新的job, 如果迭代的次数多,会产生大量的job, driver会被阻塞造成通讯失败,任务中断。解决办法:调整driver-memory参数。spark.driver.memory 1g Amou原创 2020-06-23 15:44:39 · 3674 阅读 · 1 评论 -
Spark first, last函数的坑
Spark SQL的聚合函数中有first, last函数,从字面意思就是根据分组获取第一条和最后一条记录的值,实际上,只在local模式下,你可以得到满意的答案,但是在生产环境(分布式)时,这个是不能保证的。看源码的解释:/** * Returns the first value of `child` for a group of rows. If the first value of `child` * is `null`, it returns `null` (respecting null原创 2020-06-11 12:38:58 · 3426 阅读 · 0 评论 -
Spark GraphX Pregel 应用
一、Pregel介绍Pregel是一种基于BSP模型实现的并行图处理系统。BSP(Bulk Synchronous Parallel Computing Model,块同步并行计算模型,又称“大同步”模型)计算过程包括一系列全局超步(所谓的超步就是计算中的一次迭代),每个超步主要包括三个组件:局部计算:每个参与的处理器都有自身的计算任务。 通讯:处理器群相互交换数据。 栅栏同步(Barrier Synchronization):当一个处理器遇到“路障”(或栅栏),会等到其他所有处理器完成它们原创 2020-05-19 12:16:17 · 481 阅读 · 0 评论 -
数据仓库 - 树形结构的维表开发实践
一、概述根据星型模型的概念,不存在渐变维度,数据存在冗,典型例子地域维度表,如国家,省,市这种存在上下级关系的数据结构。OLTP数据结构:id pid name 1 中国 2 1 广东省 3 2 深圳 星型模型数据结构:id country province city level 1 中国 UNKNOWN UNKNOWN 0 2 中国 广东省 UNKN.原创 2020-05-14 19:59:48 · 719 阅读 · 1 评论 -
Spark读HBASE - shc方案
shc是hortonworks出品的开源方案,基于spark的特性,分片处理,并通过谓词下推,提高处理性能。1. 引入依赖包<dependency> <groupId>com.hortonworks</groupId> <artifactId>shc-core</artifactId> <versi...原创 2020-04-25 11:59:24 · 522 阅读 · 0 评论