spark
sheep8521
让优秀成为一种习惯
展开
-
spark基础知识(一)spark submit的提交参数
1、因为生产环境的环境依赖不够,需要单独引用参数设置./spark-submit --master spark://ip:7077 #如果时本地模式,用local[n] ,n>1--class com.ec.SparkConsumer \--jars $(echo /home/rowen/libs/*.jar | tr ' ' ',') \ #批量引用环境需要的jar包--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2原创 2021-05-11 18:48:27 · 200 阅读 · 0 评论 -
sparkstreaming实战(一)sparkstraming的Output Operations之foreachrdd实例
sparkstreaming 导出到外部数据库,foreachrdd的应用:https://blog.csdn.net/legotime/article/details/51836039原创 2021-04-13 14:41:17 · 105 阅读 · 0 评论 -
spark最全的资料地址
spark转载 2018-08-02 20:07:47 · 532 阅读 · 0 评论 -
spark的maven项目的pom文件
这里是引用 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.co原创 2018-10-09 15:29:19 · 5596 阅读 · 0 评论 -
spark的知识点(一)collect
1.collect的作用Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。2.已知的弊端首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次Shuffle,而一次Shuffle调度一次stage,然而...转载 2018-10-09 17:36:31 · 2638 阅读 · 0 评论 -
SQL ON HADOOP
SQL ON HADOOP的框架:1、hive2、impala3、presto4、drill5、spark sql原创 2019-03-11 11:27:48 · 303 阅读 · 0 评论 -
spark相似算子之coalesce和repartition的区别
一.spark 分区 partition的理解:spark中是以vcore级别调度task的。如果读取的是hdfs,那么有多少个block,就有多少个partition举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition这时候读取效率会较低。假设设置资源为 --executor-memory 2g --executor-cores 2 --num...原创 2019-03-29 16:51:14 · 418 阅读 · 0 评论 -
mysql生产问题总结(一)windows环境下spark2mysql插入中文乱码问题(亲自试探过)
前言:网上搜集了很多资料,又惊醒了多次试探,终于成功了。刚开始spark插入mysql的数据格式。后面按照网上一顿更改my.ini文件也还是没有改好。1、找到C:\ProgramData\MySQL\MySQL Server 5.7下的my.ini文件,右键用Notepad++打开,修改红色框的内容。[client]default-character-set=gbk[mysql]...原创 2019-04-09 17:38:21 · 416 阅读 · 0 评论 -
Spark中的RDD、DataFrame、Dataset对比
转载自《每日五分钟搞定大数据》公众号:大叔据每周不定时更新点击看《每日五分钟搞定大数据》完整思维导图以及所有文章目录1. 三者共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,执行trainform操作时不会立即执行,遇到Action才会执行3、三者都会根据spark的内存情况自动缓存运算,这样即使...转载 2019-04-10 09:59:00 · 233 阅读 · 0 评论