2018年10月_飞翔的小宇宙

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月

原创 jenkins实现持续集成

下载安装软件版本需求:&nbsp;&nbsp;&nbsp;&nbsp;JDK要求1.7以上,ant版本1.9系列都可以,jenkins版本2.33以上。jdk的安装不再说了,下面只说一下ant和jenkins的安装和配置:&nbsp;&nbsp;&nbsp;&nbsp;ant是基于java的一款构建工具，通过配置build.xml，让项目可以进行编译，部署，打包。因为我们要实

2018-10-26 20:13:06 464

原创十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示

Spark SQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;项目地址&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp

2018-10-26 15:17:01 2942

原创 centos中mysql数据库中文乱码的解决方法

默认my.cnf配置文件中在/etc/mycnf,打开之后在里面加入以下命令即可:[client]default-character-set=utf8[mysqld]character-set-server=utf8collation-server=utf8_general_ci然后保存之后别忘了重启mysql数据库,命令如下:systemctl restart mysql.ser...

2018-10-24 16:42:06 1565 2

原创打包编译之后的项目jar包如何放到maven仓库中

一.手下在项目的根目录下打包编译mvn clean package -DskipTests=true二.执行上传到mvn仓库的命令如下mvn install:install-file -Dfile=/Users/fish/ippaoject/ipdatabase/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -Dartif...

2018-10-19 11:23:29 4568

原创十二.SparkSQL中json数据文件转换成parquet文件

第一步&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;首先在本地创建一个json文件,名字叫json_schema_infer.json,文件中数据的格式如下:{"name":"liguohui","gender":"M","height&quo

2018-10-16 10:13:51 3019 3

原创十一.SparkSQL之mysql和hive关联表操作

一.创建mysql数据create database spark;use spark;//创建表CREATE TABLE DEPT(DEPTNO int(2) PRIMARY KEY,DNAME VARCHAR(14) ,LOC VARCHAR(13) );//添加数据INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');INS...

2018-10-15 15:39:29 2038

引言:Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，此功能应该更受欢迎。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python，因为它不需要用户提供ClassTag。（请注意，这与Spark SQL JDBC服务器不同，后者允许其他应用程序使用Spar...

2018-10-15 11:33:44 806

原创九.centos下hive和hadoop以及mysql的安装，集成和配置

一.下载安装&nbsp;&nbsp;&nbsp;&nbsp;mysql的安装&nbsp;&nbsp;&nbsp;&nbsp;在这里我选择了hadoop的版本是hadoop-2.7.4.tar.gz，hive的版本是apache-hive-2.2.0-bin.tar.gz下载完成之后通过命令进行解压tar -zxvf xxx.tar.gz然后配置在根目录下的.bashrc

2018-10-12 17:32:33 2497

原创 centos之mysql数据库的安装

1.下载rpm包，并安装，执行以下命令即可命令：rpm -Uvh http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm2.执行命令yum repolist enabled | grep “mysql.-community.”，查看当前可用的mysql安装资源。从下图可知，mysql56-community/x86...

2018-10-12 11:17:11 1119

原创八.SparkSQL之外部数据源操作parquet文件

一.引言前面讲的SparkSQL都是通过代码操作,这里换另外一种方式,通过命令的形式进行操作,实际就是代码放在命令行中执行.概念:&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;方便快速的从不同的数据源(json,parquet,rdbms),经过混和处理(json,join,parquet)再将处理结果以特定的格式(json,parquet)写会到指定的系统(HD

2018-10-11 22:32:22 894

原创七.SparkSQL之Dataset实战演练

一.概述Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.解释: 针对SQL而言: seletc name from person; 写错select 但是编译(compile)还是过的,运行时出错针...

2018-10-11 16:22:53 232

原创六.SparkSQL之DataFrame操作实例实战API

前面已经说过DataFrame的基本API操作,接下来就讲下实际开发过程中的应用,首先需要准备一个数据源文件,以下面这种格式的数据(这种数据是可以清洗日志得到的)第一步: 实例实战演示import org.apache.spark.sql.SparkSessionobject DataFrameCase {def main(args: Array[String]){val spark ...

2018-10-11 12:07:06 1555 1

原创五.SparkSQL之DataFrame与RDD互操作二：编程方式

一. 引言&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;创建数据集的第二种方法是通过编程接口，允许您构建模式，然后将其应用于现有RDD。虽然此方法更详细，但它允许您在直到运行时才知道列及其类型时构造数据集。DataFrame则可以通过三个步骤以编程方式创建。1）Row从原始RDD 创建s的RDD;

2018-10-10 17:39:57 203

原创四.SparkSQL中DataFrame与RDD互操作之一：反射方式

一.引言&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Spark SQL支持两种不同的方法将现有RDD转换为数据集。第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以使代码更简洁，并且在编写Spark应用程序时已经了解了模式，因此可以很好地工作。详细资料参考 &amp;nbsp;DataFrame与RDD互操作之反射二.实例操作

2018-10-10 15:16:14 688

原创 Apache Kafka介绍和理论依据

引言:Apache Kafka是一个广受欢迎的分布式流媒体平台，New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如，New Relic的Kafka集群每秒处理超过1500万条消息，总数据速率接近1 Tbps。Kafka在应用程序开发人员和数据科学家中非常受欢迎，因为它极大简化了数据流的处理过程。但是，Kafka在Scala上实践会...

2018-10-10 09:37:39 138

原创三.SparkSQL之DataFrame基本API操作

废话不多说直接上代码和图解:import org.apache.spark.sql.SparkSession/** * Created by 李国辉 on 2018/10/9. * DataFrame API基本操作 */object DataFrameApp { def main(args: Array[String]) { val spark = SparkS...

2018-10-09 21:33:33 4209 1

原创二.java实现SparkSQL之jdbc方式编程访问hive数据库

第一步: 添加maven依赖 &amp;lt;repositories&amp;gt; &amp;lt;repository&amp;gt; &amp;lt;id&amp;gt;scala-tools.org&amp;lt;/id&amp;gt; &amp;lt;name&amp;gt;Scala-Tools

2018-10-09 10:18:49 3702 6

原创 java实现数字0-9转换为繁体字

import java.util.Scanner;public class Switch { private static String toChinese(String str) { String[] s1 = { "零", "壹", "贰", "叁", "肆", "伍", "陆", "柒", "捌",

2018-10-08 17:21:20 5321

原创一.SparkSQL中thriftserver和beeline的使用

使用的前提是你已经安装好了spark,在这里我使用的版本是spark-2.0.2-bin-hadoop2.7,建议使用该版本,因为试了几个版本都不理想,最后找到了这个版本感觉挺好的,学习Spark SQL很方便.1. 首先是启动thriftserver服务端:服务器端是在spark目录下的sbin目录下,但是启动的时候不能直接使用./start-thriftserver.sh进行启动,会报没有...

2018-10-08 16:24:32 3406

ElasticSearch笔记

里面是关于ElasticSearch的笔记资料,其中详细的记载了单例以及分布式的搭建,对数据的增删改查等...

2018-12-29

python基础教程

里面是培训机构的python基础视频的内容,有视频,文档,用到的工具等.

2018-10-29

python全栈视频资料

里面是关于python基础学完之后未来发展的走向,python全栈的资料,包括:视频,文档,工具,项目等