spark
文章平均质量分 62
瓦力冫
喜欢看点书,跑跑步,热爱游戏编程
展开
-
spark 读取parquet
列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。如果您在 HDFS 上拥有基于文本的数据文件或表,而且正在使用 Spark SQL 对它们执行查询,那么强烈推荐将文本数据文件转换为 Parquet 数据文件,以实现性能和存储收益。当然,转换需要...原创 2018-06-22 19:13:05 · 18510 阅读 · 1 评论 -
spark dataframe 转成 dataset
package com.immooc.sparkimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{Encoders, SparkSession}object DataSetTest { case class Person(name:String, age:Long) d...原创 2018-06-19 18:23:22 · 6346 阅读 · 0 评论 -
Mac Spark 运行 wordcount 程序
1. mac 安装 spark略2. 安装sbtbrew install sbt 3. 写wordcount scala程序import org.apache.spark.{SparkConf, SparkContext}object SparkWordCount { def FILE_NAME:String = "word_count_results_"; def main(ar...原创 2018-06-10 06:06:24 · 655 阅读 · 0 评论 -
spark 编译包含第三方jar
1. 加插件<plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <archive> <ma...原创 2018-06-16 18:56:44 · 451 阅读 · 0 评论 -
IntelliJ IDEA spark maven
0. 新建maven项目 1. 主要就是porm.xml 里添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2018-06-16 18:51:51 · 388 阅读 · 0 评论 -
spark window 的使用
1. window 用在rank 中的使用看这样一个需求,求出每个销售人员的按照销售金额大小的orderidpackage com.waitingfyimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functio...原创 2018-06-24 13:29:38 · 7382 阅读 · 0 评论 -
Spark 可视化实战 分析日志的搜索引擎爬虫来源
1.日志部分内容:66.249.79.35 - - [14/Jun/2018:06:45:24 +0000] "GET /img/20180504/702434-20180302101540805-554506523.jpg HTTP/1.1" 200 10013 "-" "Googlebot-Image/1.0"66.249.79.35 - - [14/Jun/2018:06:45:25 +0...原创 2018-06-22 19:20:12 · 1459 阅读 · 0 评论 -
spark foreachPartition 把df 数据插入到mysql
package com.waitingfyimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._import scala.collection.mutable...原创 2018-06-22 19:17:18 · 7253 阅读 · 0 评论 -
spark 读取jdbc mysql
1.加mysql jarspark-shell --master local[2] --jars /Users/walle/app/mysql-connector-java-8.0.11.jar2. 连接jdbcval mysqlDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306").option("d...原创 2018-06-22 19:16:29 · 1849 阅读 · 0 评论 -
spark 读取hive 数据
1.启动spark-shell 需要加上mysql jar位置spark-shell --master local[2] --jars /Users/walle/app/mysql-connector-java-8.0.11.jar2. 简单sqlspark.sql("show databases").showspark.sql("show tables").showspark.sql("us...原创 2018-06-22 19:15:45 · 6856 阅读 · 0 评论 -
spark 读取csv 到dataframe
val df = spark.read.format("csv").option("header", "true").load("/usr/local/Cellar/spark-2.3.0/examples/src/main/resources/people.csv")df.show《spark 编程方式指定dataframe的 Schema》 如果csv没有第一行,就只能指定schema了,参...原创 2018-06-22 19:13:44 · 6782 阅读 · 1 评论 -
spark 编程方式指定dataframe的 Schema
package com.immooc.sparkimport com.immooc.spark.ReflectionTest.Personimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkCo...原创 2018-06-19 18:24:03 · 4351 阅读 · 1 评论