spark
文章平均质量分 56
JackLi_csdn
这个作者很懒,什么都没留下…
展开
-
spark 问题和优化
Spark遇到的问题https://www.jianshu.com/p/2b544e51140f–num-executors数量受到Container数量限制,executor的数量+1不能超过Container数量原创 2020-05-07 23:59:22 · 223 阅读 · 0 评论 -
spark 命令行
1、启动spark-shellbin/spark-shell --master spark://search01:7077 yarn-client2、使用val nowWeekPathList=List("hdfs://cluster1/data/preHandle/ioc/20200327","hdfs://cluster1/data/preHandle/ioc/20200325")...原创 2020-04-16 08:07:49 · 534 阅读 · 0 评论 -
spark sql
groupbyorg.apache.spark.sql.AnalysisException: expression 'page_click.`time`' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) ...原创 2020-04-15 18:36:50 · 636 阅读 · 0 评论 -
spark conf port
conf:keyvaluespark.ui.port4040spark.shuffle.service.port7337spark.blockManager.port随机,blockmanager监听的端口spark.driver.blockManager.port等于spark.blockManager.portspark.driver.po...原创 2019-11-21 14:21:12 · 267 阅读 · 0 评论 -
spark on yarn
1、HADOOP_CONF_DIR or YARN_CONF_DIR:write to HDFS and connect to the YARN ResourceManager2、(1)cluster mode:(2)client mode:(3)例子$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ -...原创 2019-11-12 22:34:24 · 133 阅读 · 0 评论 -
spark Cluster Mode
1、SparkContext 和cluster manager(standalone、yarn等)建立连接,给APP分配资源2、获得executor3、发送jar给executor4、sparkContext发送task给executornote:1、每个application都是独立的,driver端调度task,executor端task运行在不同的jvm上术语Term...原创 2019-11-12 10:51:20 · 213 阅读 · 0 评论 -
spark conf
1、Spark properties :设置application的参数,可以通过SparkConf和Javasystem properties2、环境变量:conf/spark-env.sh3、日志:log4j.properties4、例子./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog....原创 2019-11-11 22:52:28 · 553 阅读 · 0 评论 -
Submitting application
1、assembly jar2、跟spark和hadoop相关的pom要用provided3、命令./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<v...原创 2019-11-11 17:20:16 · 445 阅读 · 0 评论 -
Spark Standalone Mode
1、启动脚本./sbin/start-master.sh输出一个URL: spark://HOST:PORT默认WebUI上有: http://localhost:8080./sbin/start-slave.sh <master-spark-URL>-h HOST, --host HOST-p PORT, --port PORTPort for s...原创 2019-11-11 15:14:15 · 271 阅读 · 0 评论 -
spark Streaming 部署jar
部署application1、集群2、打包成jar3、给executor配置足够的内存4、配置checkpoint5、配置automatic restart of the application driver6、配置write-ahead logs spark.streaming.receiver.writeAheadLog.enable=trueStorageLevel.MEMOR...原创 2019-10-08 13:45:20 · 261 阅读 · 0 评论 -
Spark Streaming状态管理函数—updateStateByKey和mapWithState
https://blog.csdn.net/zangdaiyang1991/article/details/84099722https://blog.csdn.net/qq_21383435/article/details/80573699https://blog.csdn.net/m0_37914799/article/details/84702378#mapWithStatehttps:...原创 2019-08-22 16:07:47 · 238 阅读 · 0 评论 -
Structured Streaming
Structured Streaming:基于spark sql引擎实现实时数据分析在structured Streaming模型中,把数据看成无边界的关系型的数据表,每个数据都是表中的一行。将输入的数据流按照时间间隔(以一秒为例)划分成数据段,每秒都会把新输入的数据添加到表中,输出的结果也是表的形式,可以将表写入硬盘或者HDFS三种输出模式:1、完全模式:将整个更新过的输出表都写入外部存储...原创 2019-08-21 16:59:52 · 143 阅读 · 0 评论 -
序列化
序列化与反序列化:如何通过网络传输结构化的数据?二进制流和字节流本质上是一样的。将结构化数据转换为字节流的过程称之为序列化。序列化同样适用于将结构化数据保存在文件中。序列化的因素:(1)序列化后的数据最好易于阅读(2)实现简单(3)速度快(4)序列化后的信息密度越大越好对于强业务类系统,比如电商类、社交类的系统,他们的特点是业务复杂,但对性能要求没有那么苛刻,推荐使用json。如果...原创 2019-08-17 00:50:32 · 469 阅读 · 0 评论 -
sparkstreaming
要开始接收数据,必须显式调用 StreamingContext 的 start() 方法。这样,Spark Streaming 就会开始把 Spark 作业不断交给下面的 SparkContext 去调度执行。执行会在另一个线程中进行,所以需要调用awaitTermination 来等待流计算完成,来防止应用退出。...原创 2018-11-21 20:49:04 · 240 阅读 · 0 评论 -
sparkSQL rdd
Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF(用户自定义函数)、SerDe(序列化格式和反序列化格式),以及 Hive 查询语言(HiveQL/HQL)带有 Hive 支持的 Spark SQL 的 Maven 索引groupId...原创 2018-11-20 18:05:19 · 601 阅读 · 0 评论 -
shuffle
算子:.distinct, intersection(,。subtract(原创 2018-11-08 10:39:22 · 144 阅读 · 0 评论 -
spark中job stage task关系
https://www.cnblogs.com/wzj4858/p/8204411.html原创 2018-11-09 11:44:40 · 200 阅读 · 0 评论 -
kafka SparkStreaming
发送的时候:kafka client 包里的KafkaProducer,发送的ProducerRecord接受的时候:spark.streaming.kafka包里的,0.10版本,KafkaUtils.createDirectStreamTopic:kafka里的AdminUtils.createTopickafka client 包里的KafkaConsumer和KafkaProduce...原创 2018-11-03 18:09:19 · 366 阅读 · 0 评论 -
spark相比MapReduce的优势
1、引入了新的ANSI SQL解析器,并支持子查询功能。 Spark 2.0可以运行所有99个TPC-DS查询(需求SQL:2003中的很多功能支持)。 2、简化了API:参考: http://f.dataguru.cn/thread-629612-1-1.html http://lxw1234.com/archives/2016/05/666.htm原创 2020-09-05 23:46:15 · 1591 阅读 · 0 评论 -
spark 搭建
启动spark sbin/start-all.sh 主节点: slave节点: 参考: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/原创 2016-05-15 21:20:07 · 434 阅读 · 0 评论 -
word2vec
参考: http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art转载 2016-05-22 15:55:42 · 214 阅读 · 0 评论 -
Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。 一、RDD内存数据结构 大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升转载 2016-05-16 17:30:36 · 849 阅读 · 0 评论 -
spark sql cli
将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下;原创 2016-05-25 14:24:09 · 424 阅读 · 0 评论 -
spark mllib 相关使用
spark向量、矩阵类型 http://blog.csdn.net/bluejoe2000/article/details/44217949 BLAS (不太明白为何是private)http://snacktrace.com/artifacts/org.apache.spark/spark-mllib_2.11/2.0.0-preview/org.apache.spark.mllib.lin转载 2017-08-23 16:44:40 · 401 阅读 · 0 评论 -
spark 性能调优
https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081原创 2016-05-26 14:46:45 · 534 阅读 · 0 评论 -
spark rdd scala相关使用
一、Sort排序详解val rdd3=rdd2.map(r⇒(r._1._1._1,r._2._1._1,euclidean(r._1._1._2,r._2._1._2)))val rdd4=rdd3.map(r⇒(r._3,r))val rdd6=rdd4.sortByKey(false)var rdd7= rdd3.sortBy(r⇒(r._3),false)false代表降序http:/原创 2017-08-23 16:42:29 · 671 阅读 · 0 评论 -
spark 运行原理
job task stage http://litaotao.github.io/deep-into-spark-exection-model原创 2017-09-18 16:34:15 · 515 阅读 · 0 评论 -
数据倾斜
http://www.jianshu.com/p/06b67a3c61a9任务倾斜原创 2017-09-17 22:10:04 · 269 阅读 · 0 评论 -
spark 错误
一、Error for /api/v1/applicationsjava.lang.ClassNotFoundException: org.apache.spark.status.api.v1.ApiRequestContext错误比较诡异,spark api 里根本没有这个类,不行的话,只能把org.apache.spark.status.api.v1,这个包在spark-core_2.11-2原创 2017-09-19 14:43:23 · 1005 阅读 · 0 评论 -
spark 小技巧
一、把结果带出foreachval e= b.map(f⇒{ var dbConnector:GraphDatabaseConnector=new Neo4jConnector(); val eachList=dbConnector.getPersonSimList(f._1) dbConnector.finalize() dbConnec原创 2017-09-17 22:03:24 · 729 阅读 · 0 评论 -
spark 集群相关使用
要在spark-defaults.conf 设置如下参数,避免很多问题 spark.driver.maxResultSize 2g spark.driver.memory 10g可能可以解决group by的问题 spark.serializer org.apache.spark.serializer.JavaSeri原创 2016-06-22 11:55:17 · 412 阅读 · 0 评论 -
spark 共享变量
闭包原则 https://fangjian0423.github.io/2016/01/27/spark-programming-guide/原创 2017-09-17 21:57:16 · 388 阅读 · 0 评论 -
java 资源池
http://secfree.github.io/blog/2014/12/28/spark-streaming-pool.htmlhttps://www.bbsmax.com/A/1O5EpMZaJ7/原创 2018-02-21 22:38:35 · 1090 阅读 · 0 评论 -
spark RDD
命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile(&amp;amp;amp;quot;file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md&amp;amp;amp;quot;)参考: http://colobu.com/2014/12/08/spark-quick-start/原创 2016-05-16 17:51:27 · 376 阅读 · 0 评论