【Spark】
曲健磊的个人博客
just do it!
展开
-
SparkSQL读取和写出数据的几种方式
一、parquet格式的数据parquet是一种列式存储格式的文件类型。存储时可以通过牛X的压缩算法节省存储空间,读取数据时只需要读取所需的列,提高读取性能。二、JSON格式的数据三、通过JDBC读取数据库中的数据四、Hive中的数据所需的pom依赖如下:<dependencies> <!-- spark核心包 --> <dependency>...原创 2019-11-29 15:40:21 · 2945 阅读 · 0 评论 -
如何开发SparkSQL项目?
前言Spark是企业中用的比较多的大数据计算框架,它主要由 SparkCore、SparkSQL、SparkStreaming 这三个模块组成,实时计算主要使用 SparkStreaming,离线部分的数据处理则主要使用SparkSQL。开发 SparkSQL 程序的一般流程是:读取 HDFS 上的文件 => 装换成 RDD => 注册成临时表 => 调用 SparkSQL 的...原创 2019-10-24 16:36:51 · 904 阅读 · 0 评论 -
Spark编程案例:分析tomcat访问日志求访问量最高的前两个网页
需求如题,tomcat 访问日志如下:192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/head.jsp HTTP/1.1" 200 713192.168.88...原创 2019-01-19 15:17:29 · 1651 阅读 · 1 评论 -
如何创建 SparkContext,SQLContext,StreamingContext 的几种方式?
首先,使用 ScalaIDE 或 IDEA 创建 Scala 的 Maven 工程。需要用到 spark-core,spark-sql,spark-streaming 的 jar 包,pom 文件如下:&lt;properties&gt; &lt;spark.version&gt;2.1.0&lt;/spark.version&gt; &lt;scala.version&原创 2019-02-14 20:20:56 · 3507 阅读 · 0 评论 -
Spark编程案例:创建自定义分区
需求:根据 jsp 文件的名字,将各自的访问日志放入到不同的分区文件中,如下:生成的分区文件例如:part-00000 文件中的内容:只包含了 java.jsp 的访问日志日志内容:192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30...原创 2019-02-11 14:49:10 · 590 阅读 · 0 评论 -
Spark编程案例:针对每个分区进行数据库操作
需求:将有多个分区的 RDD 中的数据保存到数据库ps:针对分区进行数据库操作的话,建议使用 foreachPartition 算子,每个分区创建一个 Connection,避免一个 Connection 被多个分区使用而造成的序列化的麻烦。def saveToMySql(it:Iterator[(String, String)]) = { var conn:Connection = ...原创 2019-02-11 15:52:12 · 500 阅读 · 0 评论