自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

飞翔的宇宙

自己永远是半杯水

  • 博客(19)
  • 资源 (5)
  • 收藏
  • 关注

原创 jenkins实现持续集成

下载安装软件版本需求:    JDK要求1.7以上,ant版本1.9系列都可以,jenkins版本2.33以上。jdk的安装不再说了,下面只说一下ant和jenkins的安装和配置:    ant是基于java的一款构建工具,通过配置build.xml,让项目可以进行编译,部署,打包。因为我们要实

2018-10-26 20:13:06 464

原创 十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示

Spark SQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,    项目地址    &nbsp

2018-10-26 15:17:01 2942

原创 centos中mysql数据库中文乱码的解决方法

默认my.cnf配置文件中在/etc/mycnf,打开之后在里面加入以下命令即可:[client]default-character-set=utf8[mysqld]character-set-server=utf8collation-server=utf8_general_ci然后保存之后别忘了重启mysql数据库,命令如下:systemctl restart mysql.ser...

2018-10-24 16:42:06 1565 2

原创 打包编译之后的项目jar包如何放到maven仓库中

一.手下在项目的根目录下打包编译mvn clean package -DskipTests=true二.执行上传到mvn仓库的命令如下mvn install:install-file -Dfile=/Users/fish/ippaoject/ipdatabase/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -Dartif...

2018-10-19 11:23:29 4568

原创 十二.SparkSQL中json数据文件转换成parquet文件

第一步     首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height&quo

2018-10-16 10:13:51 3019 3

原创 十一.SparkSQL之mysql和hive关联表操作

一.创建mysql数据create database spark;use spark;//创建表CREATE TABLE DEPT(DEPTNO int(2) PRIMARY KEY,DNAME VARCHAR(14) ,LOC VARCHAR(13) );//添加数据INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');INS...

2018-10-15 15:39:29 2038

原创 十.SparkSQL之外部数据源操作mysql表数据

引言:Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,此功能应该更受欢迎。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python,因为它不需要用户提供ClassTag。(请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spar...

2018-10-15 11:33:44 806

原创 九.centos下hive和hadoop以及mysql的安装,集成和配置

一.下载安装    mysql的安装    在这里我选择了hadoop的版本是hadoop-2.7.4.tar.gz,hive的版本是apache-hive-2.2.0-bin.tar.gz下载完成之后通过命令进行解压tar -zxvf xxx.tar.gz然后配置在根目录下的.bashrc

2018-10-12 17:32:33 2497

原创 centos之mysql数据库的安装

1.下载rpm包,并安装,执行以下命令即可命令:rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm2.执行命令yum repolist enabled | grep “mysql.-community.”,查看当前可用的mysql安装资源。从下图可知,mysql56-community/x86...

2018-10-12 11:17:11 1119

原创 八.SparkSQL之外部数据源操作parquet文件

一.引言前面讲的SparkSQL都是通过代码操作,这里换另外一种方式,通过命令的形式进行操作,实际就是代码放在命令行中执行.概念:     方便快速的从不同的数据源(json,parquet,rdbms),经过混和处理(json,join,parquet)再将处理结果以特定的格式(json,parquet)写会到指定的系统(HD

2018-10-11 22:32:22 894

原创 七.SparkSQL之Dataset实战演练

一.概述Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.解释: 针对SQL而言: seletc name from person; 写错select 但是编译(compile)还是过的,运行时出错 针...

2018-10-11 16:22:53 232

原创 六.SparkSQL之DataFrame操作实例实战API

前面已经说过DataFrame的基本API操作,接下来就讲下实际开发过程中的应用,首先需要准备一个数据源文件,以下面这种格式的数据(这种数据是可以清洗日志得到的)第一步: 实例实战演示import org.apache.spark.sql.SparkSessionobject DataFrameCase {def main(args: Array[String]){val spark ...

2018-10-11 12:07:06 1555 1

原创 五.SparkSQL之DataFrame与RDD互操作二:编程方式

一. 引言       创建数据集的第二种方法是通过编程接口,允许您构建模式,然后将其应用于现有RDD。虽然此方法更详细,但它允许您在直到运行时才知道列及其类型时构造数据集。DataFrame则可以通过三个步骤以编程方式创建。1)Row从原始RDD 创建s的RDD;

2018-10-10 17:39:57 203

原创 四.SparkSQL中DataFrame与RDD互操作之一:反射方式

一.引言     Spark SQL支持两种不同的方法将现有RDD转换为数据集。第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁,并且在编写Spark应用程序时已经了解了模式,因此可以很好地工作。详细资料参考  DataFrame与RDD互操作之反射二.实例操作

2018-10-10 15:16:14 688

原创 Apache Kafka介绍和理论依据

引言:Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如,New Relic的Kafka集群每秒处理超过1500万条消息,总数据速率接近1 Tbps。Kafka在应用程序开发人员和数据科学家中非常受欢迎,因为它极大简化了数据流的处理过程。但是,Kafka在Scala上实践会...

2018-10-10 09:37:39 138

原创 三.SparkSQL之DataFrame基本API操作

废话不多说直接上代码和图解:import org.apache.spark.sql.SparkSession/** * Created by 李国辉 on 2018/10/9. * DataFrame API基本操作 */object DataFrameApp { def main(args: Array[String]) { val spark = SparkS...

2018-10-09 21:33:33 4209 1

原创 二.java实现SparkSQL之jdbc方式编程访问hive数据库

第一步: 添加maven依赖 <repositories> <repository> <id>scala-tools.org</id> <name>Scala-Tools

2018-10-09 10:18:49 3702 6

原创 java实现数字0-9转换为繁体字

import java.util.Scanner;public class Switch { private static String toChinese(String str) { String[] s1 = { "零", "壹", "贰", "叁", "肆", "伍", "陆", "柒", "捌",

2018-10-08 17:21:20 5321

原创 一.SparkSQL中thriftserver和beeline的使用

使用的前提是你已经安装好了spark,在这里我使用的版本是spark-2.0.2-bin-hadoop2.7,建议使用该版本,因为试了几个版本都不理想,最后找到了这个版本感觉挺好的,学习Spark SQL很方便.1. 首先是启动thriftserver服务端:服务器端是在spark目录下的sbin目录下,但是启动的时候不能直接使用./start-thriftserver.sh进行启动,会报没有...

2018-10-08 16:24:32 3406

ElasticSearch笔记

里面是关于ElasticSearch的笔记资料,其中详细的记载了单例以及分布式的搭建,对数据的增删改查等...

2018-12-29

python基础教程

里面是培训机构的python基础视频的内容,有视频,文档,用到的工具等.

2018-10-29

python全栈视频资料

里面是关于python基础学完之后未来发展的走向,python全栈的资料,包括:视频,文档,工具,项目等

2018-10-29

hadoop全套视频教学

百度云连接里面有大约几十G的资料,视频为主,工具,文档都有,想要研究的朋友可以下载学习。

2018-10-26

spark学习视频资料

里面文件的连接有13G的视频文档工具等资料,想学习的伙伴可以下载一下

2018-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除