![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
此心光明-超然
这个作者很懒,什么都没留下…
展开
-
Spark 2 - 实现一个定时器
使用笨办法,实现了一个定时器。 不管怎么样,效果很好,可以执行定时任务了。 @Singleton public class BuildingImportTimer { private static Logger logger = LoggerFactory.getLogger(BuildingImportTimer.class); @Inject private Buil...原创 2019-06-26 14:07:16 · 877 阅读 · 0 评论 -
Spark - 简介
简介 跨不同的workloads和platforms,是统一的分布式计算引擎。它使用各种范式(paradigms,比如Spark streaming, Spark ML, Spark SQL, and Spark GraphX),可以连接不同的platforms,处理不同的数据workloads。 fast in-memory data processing engine。 由core和库组成。 ...原创 2019-06-23 11:03:02 · 146 阅读 · 0 评论 -
Spark - yarn配置
Spark需要yarn(hadoop版本2.7.7),在ubuntu19上配置步骤如下。 配置 1、修改hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 2、修改yarn-env.sh export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 3、修改co...原创 2019-06-26 17:19:40 · 450 阅读 · 0 评论 -
Spark - 模式
为了规划和执行分布式计算,使用job概念,使用Stages和Tasks,跨工作节点执行。 Spark由driver组成,在一组工作节点上协调执行。它还负责跟踪所有工作节点,以及节点上执行的工作。 Driver:包含应用程序和主程序。 Executor:工作节点上运行的进程。Inside the executor, the individual tasks or computations are ...原创 2019-06-23 19:21:35 · 166 阅读 · 0 评论 -
Spark - 使用yarn client模式
SparkConf 如果这样写 new SparkConf().setMaster("yarn-client") 在idea内调试会报错: Exception in thread "main" java.lang.IllegalStateException: Library directory '....../data-platform-task/assembly/target/scala-2....原创 2019-06-27 13:05:08 · 4786 阅读 · 0 评论 -
Spark - 笔记 3
不可变的分布式的对象集合:只包含对象引用,实际对象在集群的节点上。 弹性、容错。 Transformations:operations都是增加新的RDD,original增加后不再修改。 默认地,RRD使用hash算法做分区。 分区数依赖节点数和数据大小。 RDD Creation Parallelizing a collection: splits成分区,跨集群distributes...原创 2019-07-13 16:02:10 · 371 阅读 · 0 评论 -
Spark - 学习CountVectorizer
CountVectorizer和CountVectorizerModel用来把文本文档的集合转换成token数量的矢量。如果没有字典,CountVectorizer可以抽取vocabulary(词汇)生成CountVectorizerModel。该model为文档生成词汇的稀疏表示,然后可以传给其他算法,比如LDA。 public class CountVectorizerDemo { ...原创 2019-07-14 11:03:57 · 544 阅读 · 0 评论 -
Spark - RegexTokenizer和StopWordsRemover学习
Stop words是应当从输入中排除掉的词,一般因为他们经常出现,还没有什么意义。 StopWordsRemover接受一个字符串序列,他们已经由Tokenizer或者RegexTokenizer做了标记。stop words的列表由参数stopWords指定。 public class StopWordsRemoverDemo { public static void main(St...原创 2019-07-14 14:49:11 · 900 阅读 · 0 评论 -
Spark - 解决序列化问题
项目中,有个类序列化有问题: Caused by: java.io.NotSerializableException: entity.Unit Serialization stack: - object not serializable (class: entity.Unit, value: Unit(id=1, name=m2)) - writeObject data (class: jav...原创 2019-07-05 17:33:10 · 1007 阅读 · 0 评论