spark
passer199101
这个作者很懒,什么都没留下…
展开
-
将 Spark 中的文本转换为 Parquet 以提升性能
https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html原创 2017-06-26 11:23:24 · 2264 阅读 · 1 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientCo
Spark2.0 yarn方式启动报错 https://my.oschina.net/xiaozhublog/blog/737902原创 2017-02-14 18:52:47 · 6085 阅读 · 0 评论 -
error: object kafka is not a member of package org.apache.spark.streaming
参考 https://forums.databricks.com/questions/7994/error-import-orgapachesparkstreamingkafka.htmlAdd the JARs..if you are using spark 1.6.1 ..try below dependency org.apache.spark spark-streaming-ka原创 2017-02-14 18:21:19 · 3615 阅读 · 0 评论 -
Spark常见问题解决办法
http://blog.csdn.net/you12345678901234567/article/details/52763713原创 2017-01-21 16:31:20 · 329 阅读 · 0 评论 -
spark 提交任务的时候指定名字
https://www.iteblog.com/archives/1140 https://my.oschina.net/cjun/blog/509247 --name 'My App'原创 2017-02-08 17:39:55 · 6468 阅读 · 1 评论 -
Spark Streaming的入门介绍
http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/ 介绍的很好。原创 2017-01-17 14:14:55 · 409 阅读 · 0 评论 -
spark-submit的参数files
参考:http://blog.csdn.net/book_mmicky/article/details/25714545 –files FILES 用逗号隔开的要放置在每个executor工作目录的文件列表原创 2016-12-28 17:26:52 · 6873 阅读 · 1 评论 -
spark读取配置文件中的配置
spark提交方式如下/usr/bigdata/spark-1.6.0-bin-hadoop2.6/bin/spark-submit \--class in.appcook.test.TestSpark \--master yarn \--deploy-mode cluster \--executor-memory 2G \--num-executors 2 \--files /data原创 2016-11-23 18:35:58 · 9596 阅读 · 0 评论 -
spark和elasticsearch的整合
下载jar包 https://www.elastic.co/downloads/hadoop将elasticsearch-spark_2.10-2.4.0.jar加入类路径里面 import org.elasticsearch.spark.sql._ // DataFrame schema automatically inferred val conf原创 2016-10-26 14:11:56 · 3137 阅读 · 0 评论 -
spark 自定义partitioner
package inpvimport org.apache.spark.Partitionerclass PvPartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = {原创 2017-03-10 18:14:27 · 706 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(一)
https://webcache.googleusercontent.com/search?q=cache:WOcm7DHa2OcJ:https://www.zybuluo.com/xiaop1987/note/76737+&cd=2&hl=zh-CN&ct=clnk原创 2017-03-10 18:26:00 · 521 阅读 · 0 评论 -
Spark将数据压缩存储
/tmp/dj/20170622.1498060818603为json数据 将数据压缩存储成parquetval logs = spark.read.json("/tmp/dj/20170622.1498060818603")//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")logs.coale原创 2017-06-23 17:26:38 · 2360 阅读 · 5 评论 -
spark stream上创建对象实例
kafkaStream.foreachRDD { rdd => rdd.foreachPartition { partition => //每次在这里创建一个kafka producer实例是不可取的 } }上边的方式会造通过kafka producer发送的数据部分丢失. 应该用如下的方式, 下边的这种方原创 2017-06-06 15:00:50 · 438 阅读 · 1 评论 -
Spark中的一些概念
一次action操作会触发RDD的延迟计算,我们把这样的一次计算称作一个Job。 窄依赖指的是:每个parent RDD 的 partition 最多被 child RDD的一个partition使用 宽依赖指的是:每个parent RDD 的 partition 被多个 child RDD的partition使用 窄依赖每个child RDD 的partition的生成操作都是可以并行的原创 2017-05-31 14:54:38 · 356 阅读 · 0 评论 -
spark stream冷启动处理kafka中积压的数据
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量spark.streaming.backpressure.enabled=truespark.streaming.backpressure.initialRate=200应该是在spark-submit的命令中用–conf指定。 http://qindongliang.iteye.com/blog/原创 2017-04-06 12:06:28 · 3289 阅读 · 0 评论 -
spark读取hdfs文件的路径使用正则表达式
spark.read.json("/flume/product/160/raw1/2017/05/23/*[1-9]")读取文件,文件以数字结尾.原创 2017-05-23 18:26:07 · 4199 阅读 · 0 评论 -
用人话解释机器学习中的Logistic Regression(逻辑回归)
这是我见过的最容易看懂的介绍逻辑回归的文章。对于其他很多介绍机器学习的文章,我表示看不懂,专业术语太多,专业性太强(其实本来想说,我甚鄙视之,但是想想算了,他们又不是写给小白看的)。原创 2017-03-17 11:04:45 · 739 阅读 · 0 评论 -
Spark Streaming集成Kafka总结
参考 http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/原创 2017-03-14 17:13:01 · 739 阅读 · 0 评论 -
Spark优化之二:集群上运行jar程序,状态一直Accepted且不停止不报错
http://www.cnblogs.com/shixiangwan/p/6195297.html原创 2017-03-27 21:05:23 · 4265 阅读 · 0 评论 -
Couldn't find leader offsets for Set news_topic
kafka topic must contain at least one message before the DirectStream creationhttp://apache-spark-developers-list.1001551.n3.nabble.com/Exception-using-the-new-createDirectStream-util-method-td1原创 2015-12-04 11:37:43 · 4847 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(二)
https://www.zybuluo.com/xiaop1987/note/102894Spark(以及YARN) 需要关心的两项主要的资源是 CPU 和 内存, 磁盘 和 IO 当然也影响着 Spark 的性能,但是不管是 Spark 还是 Yarn 目前都没法对他们做实时有效的管理。在一个 Spark 应用中,每个 Spark executor 拥有固定个数的 core转载 2015-10-09 17:13:10 · 480 阅读 · 0 评论 -
Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现
http://www.iteblog.com/archives/1381转载 2015-08-19 14:52:14 · 793 阅读 · 0 评论 -
安装Scala
from http://www.cnblogs.com/chenjunbiao/archive/2011/01/26/1945275.html在上边链接的基础上有所改动1、安装JAVA。 Scala是基于java之上,大量使用java的类库和变量,必须使用Scala之前必须先安装java。通过运行命令查看你的系统是否已经安装了java的sdk。c:\>ja转载 2015-01-04 13:47:23 · 685 阅读 · 0 评论 -
整合Kafka到Spark Streaming
http://www.csdn.net/article/2014-12-31/2823384-kafka-spark-streaming-integration-example-tutorial转载 2015-01-02 16:36:25 · 507 阅读 · 0 评论 -
Spark 快速入门(中文译文)
原文:https://spark.apache.org/docs/latest/quick-start.html译文:http://colobu.com/2014/12/08/spark-quick-start/原创 2014-12-29 15:27:23 · 536 阅读 · 0 评论 -
淘宝Spark
http://rdc.taobao.org/?tag=spark&paged=2原创 2014-12-29 11:17:29 · 549 阅读 · 0 评论 -
Spark&Spark性能调优实战
http://itindex.net/detail/50670-spark-spark-%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98转载 2014-12-27 14:23:02 · 505 阅读 · 0 评论 -
安装ClusterShell集群管理工具
正常的情况下使用yum install clustershell就可以了.如果不行,就要从源代码安装:参考http://huoding.com/2011/11/12/133在安装的过程中可能会遇到 ImportError: No module named setuptools 错误,参考http://www.pythontab.com/html/2012/pytho原创 2015-02-03 15:08:37 · 643 阅读 · 0 评论 -
Spark Standalone Mode
Spark Standalone Mode原创 2015-01-06 11:48:21 · 451 阅读 · 0 评论 -
Windows下基于eclipse的Spark应用开发环境搭建
转载自www.cnblogs.com/tovin/p/3822985.html 上边的文章介绍的很好,根据自己的需要,做一些修改就可以了,下边是我的代码:import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.转载 2015-01-07 15:14:23 · 1655 阅读 · 0 评论 -
详细探究Spark的shuffle实现 (截止到0.8.1)
http://jerryshao.me/architecture/2014/01/04/spark-shuffle-detail-investigation/转载 2015-03-19 17:43:19 · 650 阅读 · 0 评论 -
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
http://m.blog.csdn.net/blog/javastart/44242671转载 2015-03-19 17:57:26 · 508 阅读 · 0 评论 -
No configuration setting found for key 'akka.version'
http://stackoverflow.com/questions/31011243/no-configuration-setting-found-for-key-akka-version转载 2015-09-01 23:30:26 · 3243 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html转载 2015-08-04 16:06:43 · 516 阅读 · 0 评论 -
Spark On YARN 集群安装部署
http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/转载 2015-08-26 17:39:55 · 497 阅读 · 0 评论 -
Save apache spark dataframe to database
http://www.sparkexpert.com/2015/04/17/save-apache-spark-dataframe-to-database/转载 2015-07-03 18:24:08 · 576 阅读 · 0 评论 -
Spark SQL 1.3.0概览
http://www.csdn.net/article/2015-04-03/2824407转载 2015-04-08 10:12:16 · 452 阅读 · 0 评论 -
spark stream JavaKafkaWordCount
https://github.com/apache/spark/blob/master/examples/scala-2.10/src/main/java/org/apache/spark/examples/streaming/JavaKafkaWordCount.java转载 2015-04-08 11:36:09 · 892 阅读 · 0 评论 -
Please check that values for params "default.fs.name" and "hive.metastore.warehouse.dir" do not conf
http://blog.sina.com.cn/s/blog_8026da3a0101dimq.html转载 2015-03-12 18:31:40 · 2987 阅读 · 0 评论 -
Spark 常用配置项与优化配置项
Spark 常用配置项与优化配置项1、配置加载顺序:SparkConf方式 > 命令行参数方式 >文件配置方式。应用程序SparkConf 优先级高2.spark 常用配置详解1 节点说明IPRole192.168.1.111ActiveNameNode192.168.1.112StandbyNameNod转载 2015-03-12 22:01:38 · 13363 阅读 · 0 评论