![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
墨染繁华执念心悠
这个作者很懒,什么都没留下…
展开
-
spark-SQL理论
SparkSQL都支持哪些数据源;数据库HiveLucene:全文检索;解决索引模糊匹配like 前面加%不起作用;纯代码编程(java),硬编码Lucene Query Language:ElasticSearch:6.6系统支持SQL语句; 为什么要学习SparkSQL?JavaSE,这一套程序的运行是在内存中;重启以后结果全部丢失;JavaIO:把结果存储到硬盘中;把一...原创 2019-03-30 13:38:27 · 1230 阅读 · 0 评论 -
spark-介绍 + 高可用 + Spark-submit + 历史服务器
为什么要使用spark-spark到目前为止没有竞争对手 为什么要用到大数据?-文件超级大,一块硬盘放不下,—>hdfs上场;(存储问题)-僵尸数据:(数据存储到一个位置得用起来);(CPU+内存来完成计算);多机一块运算(MapReduce)-mr的开发流程特别繁琐;hive --> sql语句 --> 会转换成 mr 代码 --> hadoop中...原创 2019-03-31 09:21:19 · 2661 阅读 · 1 评论 -
spark-RDD
Bin/spark-shell码的代码,用Eclipse码一下;(分别使用Java和Scala)Rdd:容器,多台服务器共享的容器;算子:transformaction算子和action算子; RDDAPI文档:Scala:http://spark.apache.org/docs/latest/api/scala/index.html#packageAPI文档:java:http://...原创 2019-03-24 19:28:10 · 1279 阅读 · 0 评论 -
Structured Stream--结构流理论知识
流的来源是Spark自带的所有内容(RDD,DataSet,DataFrame)参照网址:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html流里面的数据是结构化的,列固定,可以把这10秒(这个时间可以指定)钟接收的所有数据当成一张表来使用;结构化流提供快速、可伸缩、容错、端到端的一次流...原创 2019-03-29 18:44:19 · 1658 阅读 · 0 评论