spark
学zaza
从本科毕业至今,从事数据分析,与大数据处理,熟悉spark,storm等主流大数据处理框架
展开
-
spark加载中文乱码
spark加载中文乱码在有些时候,spark加载HDFS或者本地文件中的中文时候会出现乱码的现象,因此需要在加载的时候进行一些字符的编码设置,将加载的文件的编码格式设置为UTF-8以下是现有的解决方案和案例(直接读取hadoop file) val rdd = sc.hadoopFile(file_path, classOf[TextInputFormat], classOf[Long原创 2017-07-18 09:14:21 · 7523 阅读 · 0 评论 -
读取idea resources 文件并且按行读取文件里面的内容
读取idea resources 文件并且按行读取文件里面的内容我要去读取一个resources文件夹下面的的dura_dist.txt文件,在resource文件夹下新建这个文件里面填一些信息,随便添加几行数据InputStream in = SetPlace.class.getClassLoader().getResourceAsStream("dura_dist.txt");InputStr原创 2017-08-02 11:26:09 · 8675 阅读 · 0 评论 -
Spark存储体系
Spark存储体系无论是spark的任务提交还是,任务执行,在这过程中始终离不开spark的存储体系。spark为了避免hadoop读写磁盘的IO操作成为性能瓶颈,优先将配置信息、计算结果等数据存入内存,当内存存储不下的时候,可选择性的将计算结果输出到磁盘,为了保证性能,默认都是存储到内存的,这样极大的提高了spark的计算效率。原创 2017-08-03 10:43:33 · 689 阅读 · 0 评论 -
spark 计算引擎
spark 计算引擎(一)spark 的计算是一个层层迭代的过程,迭代即上一轮的输出是下一轮计算的输入,RDD是spark计算的核心,是spark对各种计算数据的统一抽象模型,关于RDD的特性,将在今后的博客中陆续更新,今天要给大家展示的是spark的计算引擎模型。原创 2017-07-26 17:47:23 · 1944 阅读 · 0 评论 -
运行Topology
运行Topology在生产环境集群中运行topology的方式与本地模式非常相似,主要包括以下几个步骤:1) 定义拓扑(如果使用 Java 进行开发就可以使用 TopologyBuilder)2) 使用 StormSubmitter 向集群提交拓扑。StormSubmitter 接收拓扑名称、拓扑配置信息以及拓扑对象本身作为参数,如下所示:Config conf = new Config();co原创 2017-08-16 09:25:30 · 485 阅读 · 0 评论 -
Spark-scheduler原理剖析
分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Saprk on Yarn,不做特别说明,以下所述均表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别为client和cluster模式,它们的区别仅仅在于Spark Driver是运行在Cli转载 2017-09-21 11:44:07 · 398 阅读 · 0 评论 -
Spark报错java.lang.IllegalStateException: User did not initialize spark context!
这种错误往往让人摸不着头闹,日志完全看不出点在哪:以下是错误信息:java.lang.IllegalStateException: User did not initialize spark context! at org.apache.spark.deploy.yarn.ApplicationMaster.runDriver(ApplicationMaster.scala:512) at ...原创 2019-06-04 10:42:31 · 6694 阅读 · 0 评论