
每天一个程序
不管代码的难易程度,一步步慢慢来
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
HiveJdbcClient的操作 【Hive】
import java.sql.*;/** * Description: HiveJdbcClient的操作 * 修改默认的hiveserver2的启动端口: * $HIVE_HOME/bin/hiveserver2 --hiveconf hive.server2.thrift.port=14000 * $HIVE_HOME/bin/beeline -u jdb...原创 2019-03-05 19:25:49 · 403 阅读 · 0 评论 -
External DataSource 之parquet【Spark SQL】
package february.sqlimport org.apache.spark.sql.SparkSession/** * * ====== Spark SQL默认处理的format是parquet ==== * Description: Parquet 文件操作 * * 处理parquet数据 * spark.read....原创 2019-03-04 18:44:44 · 252 阅读 · 0 评论 -
基于API和SQL的基本操作【DataFrame】
写在前面:当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 // =====基于dataframe的API=======之后的就都是DataFrame 的操作了============== infoDF.show() infoDF.filter(infoDF.col("age") > 30).show()另,也可以...原创 2019-02-27 14:58:13 · 396 阅读 · 0 评论 -
DataFrame 转换为Dataset
写在前面:A DataFrame is a Dataset organized into named columns.A Dataset is a distributed collection of data.贴代码:package february.sqlimport org.apache.spark.sql.SparkSession/** * Description: ...原创 2019-02-27 09:39:03 · 3480 阅读 · 0 评论 -
RDD转换为DataFrame【反射/编程】
先贴代码package february.sqlimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}/** * Description: ============Spark...原创 2019-02-25 20:32:54 · 509 阅读 · 0 评论 -
WordCount程序【Spark Streaming版本】
~~前置~~Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafkapackage february.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * ...原创 2019-02-22 16:48:53 · 336 阅读 · 3 评论 -
基于RDD实现简单的WordCount程序【含环境搭建】
写在前面因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。废话不多说,我们直接干吧。开发环境本地开发工具版本Spark2.2.0Scala2...原创 2019-02-21 10:45:58 · 843 阅读 · 0 评论