Spark
此心光明-超然
这个作者很懒,什么都没留下…
展开
-
Spark 2 - 实现一个定时器
使用笨办法,实现了一个定时器。不管怎么样,效果很好,可以执行定时任务了。@Singletonpublic class BuildingImportTimer { private static Logger logger = LoggerFactory.getLogger(BuildingImportTimer.class); @Inject private Buil...原创 2019-06-26 14:07:16 · 871 阅读 · 0 评论 -
Spark - 简介
简介跨不同的workloads和platforms,是统一的分布式计算引擎。它使用各种范式(paradigms,比如Spark streaming, Spark ML, Spark SQL, and Spark GraphX),可以连接不同的platforms,处理不同的数据workloads。fast in-memory data processing engine。由core和库组成。...原创 2019-06-23 11:03:02 · 144 阅读 · 0 评论 -
Spark - yarn配置
Spark需要yarn(hadoop版本2.7.7),在ubuntu19上配置步骤如下。配置1、修改hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd642、修改yarn-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd643、修改co...原创 2019-06-26 17:19:40 · 448 阅读 · 0 评论 -
Spark - 模式
为了规划和执行分布式计算,使用job概念,使用Stages和Tasks,跨工作节点执行。Spark由driver组成,在一组工作节点上协调执行。它还负责跟踪所有工作节点,以及节点上执行的工作。Driver:包含应用程序和主程序。Executor:工作节点上运行的进程。Inside the executor, the individual tasks or computations are ...原创 2019-06-23 19:21:35 · 164 阅读 · 0 评论 -
Spark - 使用yarn client模式
SparkConf如果这样写new SparkConf().setMaster("yarn-client")在idea内调试会报错:Exception in thread "main" java.lang.IllegalStateException: Library directory '....../data-platform-task/assembly/target/scala-2....原创 2019-06-27 13:05:08 · 4771 阅读 · 0 评论 -
Spark - 笔记 3
不可变的分布式的对象集合:只包含对象引用,实际对象在集群的节点上。弹性、容错。Transformations:operations都是增加新的RDD,original增加后不再修改。默认地,RRD使用hash算法做分区。分区数依赖节点数和数据大小。RDD CreationParallelizing a collection: splits成分区,跨集群distributes...原创 2019-07-13 16:02:10 · 363 阅读 · 0 评论 -
Spark - 学习CountVectorizer
CountVectorizer和CountVectorizerModel用来把文本文档的集合转换成token数量的矢量。如果没有字典,CountVectorizer可以抽取vocabulary(词汇)生成CountVectorizerModel。该model为文档生成词汇的稀疏表示,然后可以传给其他算法,比如LDA。public class CountVectorizerDemo { ...原创 2019-07-14 11:03:57 · 538 阅读 · 0 评论 -
Spark - RegexTokenizer和StopWordsRemover学习
Stop words是应当从输入中排除掉的词,一般因为他们经常出现,还没有什么意义。StopWordsRemover接受一个字符串序列,他们已经由Tokenizer或者RegexTokenizer做了标记。stop words的列表由参数stopWords指定。public class StopWordsRemoverDemo { public static void main(St...原创 2019-07-14 14:49:11 · 895 阅读 · 0 评论 -
Spark - 解决序列化问题
项目中,有个类序列化有问题:Caused by: java.io.NotSerializableException: entity.UnitSerialization stack: - object not serializable (class: entity.Unit, value: Unit(id=1, name=m2)) - writeObject data (class: jav...原创 2019-07-05 17:33:10 · 1002 阅读 · 0 评论