- 博客(19)
- 资源 (5)
- 收藏
- 关注
原创 jenkins实现持续集成
下载安装软件版本需求:    JDK要求1.7以上,ant版本1.9系列都可以,jenkins版本2.33以上。jdk的安装不再说了,下面只说一下ant和jenkins的安装和配置:    ant是基于java的一款构建工具,通过配置build.xml,让项目可以进行编译,部署,打包。因为我们要实
2018-10-26 20:13:06 464
原创 十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示
Spark SQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,    项目地址    &nbsp
2018-10-26 15:17:01 2942
原创 centos中mysql数据库中文乱码的解决方法
默认my.cnf配置文件中在/etc/mycnf,打开之后在里面加入以下命令即可:[client]default-character-set=utf8[mysqld]character-set-server=utf8collation-server=utf8_general_ci然后保存之后别忘了重启mysql数据库,命令如下:systemctl restart mysql.ser...
2018-10-24 16:42:06 1565 2
原创 打包编译之后的项目jar包如何放到maven仓库中
一.手下在项目的根目录下打包编译mvn clean package -DskipTests=true二.执行上传到mvn仓库的命令如下mvn install:install-file -Dfile=/Users/fish/ippaoject/ipdatabase/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -Dartif...
2018-10-19 11:23:29 4568
原创 十二.SparkSQL中json数据文件转换成parquet文件
第一步     首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height&quo
2018-10-16 10:13:51 3019 3
原创 十一.SparkSQL之mysql和hive关联表操作
一.创建mysql数据create database spark;use spark;//创建表CREATE TABLE DEPT(DEPTNO int(2) PRIMARY KEY,DNAME VARCHAR(14) ,LOC VARCHAR(13) );//添加数据INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');INS...
2018-10-15 15:39:29 2038
原创 十.SparkSQL之外部数据源操作mysql表数据
引言:Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,此功能应该更受欢迎。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python,因为它不需要用户提供ClassTag。(请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spar...
2018-10-15 11:33:44 806
原创 九.centos下hive和hadoop以及mysql的安装,集成和配置
一.下载安装    mysql的安装    在这里我选择了hadoop的版本是hadoop-2.7.4.tar.gz,hive的版本是apache-hive-2.2.0-bin.tar.gz下载完成之后通过命令进行解压tar -zxvf xxx.tar.gz然后配置在根目录下的.bashrc
2018-10-12 17:32:33 2497
原创 centos之mysql数据库的安装
1.下载rpm包,并安装,执行以下命令即可命令:rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm2.执行命令yum repolist enabled | grep “mysql.-community.”,查看当前可用的mysql安装资源。从下图可知,mysql56-community/x86...
2018-10-12 11:17:11 1119
原创 八.SparkSQL之外部数据源操作parquet文件
一.引言前面讲的SparkSQL都是通过代码操作,这里换另外一种方式,通过命令的形式进行操作,实际就是代码放在命令行中执行.概念:     方便快速的从不同的数据源(json,parquet,rdbms),经过混和处理(json,join,parquet)再将处理结果以特定的格式(json,parquet)写会到指定的系统(HD
2018-10-11 22:32:22 894
原创 七.SparkSQL之Dataset实战演练
一.概述Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.解释: 针对SQL而言: seletc name from person; 写错select 但是编译(compile)还是过的,运行时出错 针...
2018-10-11 16:22:53 232
原创 六.SparkSQL之DataFrame操作实例实战API
前面已经说过DataFrame的基本API操作,接下来就讲下实际开发过程中的应用,首先需要准备一个数据源文件,以下面这种格式的数据(这种数据是可以清洗日志得到的)第一步: 实例实战演示import org.apache.spark.sql.SparkSessionobject DataFrameCase {def main(args: Array[String]){val spark ...
2018-10-11 12:07:06 1555 1
原创 五.SparkSQL之DataFrame与RDD互操作二:编程方式
一. 引言       创建数据集的第二种方法是通过编程接口,允许您构建模式,然后将其应用于现有RDD。虽然此方法更详细,但它允许您在直到运行时才知道列及其类型时构造数据集。DataFrame则可以通过三个步骤以编程方式创建。1)Row从原始RDD 创建s的RDD;
2018-10-10 17:39:57 203
原创 四.SparkSQL中DataFrame与RDD互操作之一:反射方式
一.引言     Spark SQL支持两种不同的方法将现有RDD转换为数据集。第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考  DataFrame与RDD互操作之反射二.实例操作
2018-10-10 15:16:14 688
原创 Apache Kafka介绍和理论依据
引言:Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如,New Relic的Kafka集群每秒处理超过1500万条消息,总数据速率接近1 Tbps。Kafka在应用程序开发人员和数据科学家中非常受欢迎,因为它极大简化了数据流的处理过程。但是,Kafka在Scala上实践会...
2018-10-10 09:37:39 138
原创 三.SparkSQL之DataFrame基本API操作
废话不多说直接上代码和图解:import org.apache.spark.sql.SparkSession/** * Created by 李国辉 on 2018/10/9. * DataFrame API基本操作 */object DataFrameApp { def main(args: Array[String]) { val spark = SparkS...
2018-10-09 21:33:33 4209 1
原创 二.java实现SparkSQL之jdbc方式编程访问hive数据库
第一步: 添加maven依赖 <repositories> <repository> <id>scala-tools.org</id> <name>Scala-Tools
2018-10-09 10:18:49 3702 6
原创 java实现数字0-9转换为繁体字
import java.util.Scanner;public class Switch { private static String toChinese(String str) { String[] s1 = { "零", "壹", "贰", "叁", "肆", "伍", "陆", "柒", "捌",
2018-10-08 17:21:20 5321
原创 一.SparkSQL中thriftserver和beeline的使用
使用的前提是你已经安装好了spark,在这里我使用的版本是spark-2.0.2-bin-hadoop2.7,建议使用该版本,因为试了几个版本都不理想,最后找到了这个版本感觉挺好的,学习Spark SQL很方便.1. 首先是启动thriftserver服务端:服务器端是在spark目录下的sbin目录下,但是启动的时候不能直接使用./start-thriftserver.sh进行启动,会报没有...
2018-10-08 16:24:32 3406
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人