ProductBug-CSDN博客

原创在greenplum中自定义数组去重函数（亲测可用）

在greenplum数据库中自定义数组函数（亲测可用）背景：我的A表里面有一个字段叫taskidArray text[]，是数组类型，这个字段里面存的是一个一个的taskid。现在我有另一张表B，里面有一个字段叫taskid。现在我要做的是把B表里面的taskid给append到A表里面的taskidArray字段里面去。那如果taskidArray里面已经包含了将要插入的taskid，...

2019-01-09 11:38:16 1439

原创如何在greenplum数据库中删除最新时间以外的所有重复记录（亲测可用）

背景：假设一张表有5个字段，其中一个字段为时间字段。表中数据情况为：除时间字段值不同外，其他字段值都相同，现在要把多余的记录删掉，保留最新时间的那一条。insert into table_name_tmp select a.* from table_name a where not exists(select 1 from table_name b where b.member_id...

2019-01-08 17:37:15 926

原创如何在greenplum数据库中查找一周前到当前时间的数据（亲测可用）

查找出最近7天的数据select * from 表名 where time between (select current_timestamp - interval '3 day'）and current_timestamp;

2019-01-08 17:24:17 2911

转载 java--对象引用与对象的区别（转载）

一、前言在java学习中，理解对象以及对象的引用是万里长征的第一步。但是，现在大量的java学习书籍都将对象以及对象的引用混为一谈，然而实际上它们有着本质的区别。为了帮助更多的java学者更好的理解，我将自己的学习理解记录下来。如有理解不全或者错误的地方，欢迎大家批评指正。二、分析对象引用与对象的区别为了接下来进行更好的分析，我先建立一个Demo类，用于后面的

2017-11-15 12:33:22 257

1.启动Kafka，其中”>>/dev/null”表示将日志信息输出到”黑洞”，其中”2>&1”表示将错误信息和前面的日志信息一样，也输出到”黑洞”，末尾的”&”表示以后台方式启动kafka：bin/kafka-server-start.sh config/server.properties >>/dev/null 2>&1 &2、创建一个名为”mytopic”的Topic：bin/kafka-to

2017-11-10 00:38:12 306

原创 zookeeper删除kafka元数据，解决kafka无法消费数据的问题

启动kafka前没有启动zookeeper，导致消费者消费不到数据解决方法：启动zookeeper的客户工具，删除zookeeper根目录下的brokers目录下的topic目录下的所有东西（这样会把之前建的所有topic都删除）具体步骤： 1、启动zookeeper 客户端：进到zookeeper的安装目录[root@Node1 bin]# cd /usr/apps/zookeeper/

2017-11-09 23:02:27 10542

原创 Centos下安装nc

netcat(nc,”脑残”)是一个简单而有用的工具，被誉为网络安全界的“瑞士均道”，不仅可以通过使用TCP或UDP协议的网络连接读写数据，同时还是一个功能强大的网络调试和探测工具，能够建立你需要的几乎所有类型的网络连接。在Linux终端窗口可以直接使用yum工具进行安装：[root@Master ~]# yum install nc.x86_64等待安装完成Loaded plugins: fa

2017-11-09 00:15:05 1017

原创在idea上用SparkStreaming实现从远程socket读取数据并完成Wordcount

首先，准备环境在本机（win7）上安装好idea（自行解决）我的远端就是一台Centos版本的Linux，主机名叫master。在这个远端上装好 nc(“脑残”)[root@Master ~]# nc -lk 8888bash: nc: command not found出现这个说明我的nc并没有安装，那么我装一下（首先得配好网络yum源，），执行下面的命令[root@Master ~

2017-11-09 00:09:26 1073

转载 yarn-client、yarn-cluster 的区别

Spark on yarn有分为两种模式yarn-cluster和yarn-client Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN )，集群管理负责启动executor进程，编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式，这三种集群模式都由两个组件组成:master和slave。Mast

2017-11-08 18:28:15 1406

原创 window7下手动启动MySQL-server

1、打开控制面板点击->系统和安全点击->管理工具点击->服务->找到MySQL2、点击MySQL，进去就可以打开，停止MySQL服务了

2017-11-07 12:05:24 524

原创 Spark模拟实现某网站用户浏览次数最多的url统计

现在假设有一个IT教育网站，有Java，PHP，net等多个栏目，下面是模拟实现的网站日志第一个字段是访问日期，第二个字段是访问的URL，其中每个栏目有一个独立域名，如下：java.aaaaaaa.cnnet.aaaaaaa.cnphp.aaaaaaa.cn20160321101954 http://java.aaaaaaa.cn/java/course/javaeeadvanced.shtml

2017-11-06 21:29:35 2283

原创 spark中算子详解：combineByKey

combineByKey是spark中更加底层，更加难理解，但却更灵活的一个算子这个算子需要传入三个函数第一个函数，是对每个分区的第一个值进行操作（这是本篇文章最重要的点）第二个函数，是对每个分区进行操作第三个函数，在第二个函数对每个分区操作产生结果后，对所有分区的结果进行聚合下面是具体的例子通过scala集合产生一个rddscala > val rdd1 = sc.parallelize(

2017-11-06 15:56:36 527

原创 spark中算子详解：aggregateByKey

通过scala集合以并行化方式创建一个RDDscala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse",2)),2)pairRdd 这个RDD有两个区，一个区中存放的是：("cat",2),("cat",5),("mouse",4)另一个分区中存放的是：

2017-11-06 15:14:56 5457 4

原创使用 scala 实现单机版 WordCount

1、定义一个list,这个list里面模拟一行一行的文本数据val lines = List("hello aa bb cc ", "hello dd ee ff aa ", "hello kk hh jj")2、用map函数对lines按照空格进行切割val lineword = lines.map(_.split(" "))3、用flatten函数对lineword进行“压平”val words

2017-10-31 21:39:36 389

原创区块链发展趋势

区块链技术是具有普适性的底层技术框架，可以为金融、经济、科技甚至政治等各领域带来深刻变革。按照目前区块链技术的发展脉络，区块链技术将会经历以可编程数字加密货币体系为主要特征的区块链1.0模式，以可编程金融系统为主要特征的区块链2.0模式和以可编程社会为主要特征的区块链3.0模式。目前，一般认为区块链技术正处于2.0模式的初期，股权众筹和p2p借贷等各类基于区块链技术的互联网金融相继涌现。然而，上述模

2017-10-31 12:34:02 443

原创 BigData数据导入工具sqoop入门

切记：sqoop底层跑的是mapreduce，但是它只有map任务而没有reduce任务！！！

2017-10-27 18:04:12 370

原创 Storm集群搭建

注意：安装storm的前提是必须安装好zookeeper，最好是在三台机子上搭建出来zookeeper。storm集群组件 1、主控节点（老大）：master node 一个集群只能有一个老大，这个老大上运行一个叫做Nimbus的后台程序，负责在storm集群内分发代码，分配任务给工作节点（小弟），并且负责监控集群的在运行状态。 2、工作节点（小弟）：work node 集群里可以有好多小

2017-10-27 17:43:43 252

原创我如何在5台虚拟机上整合hadoop生态圈的各种组件（随笔）

经过本人的实际经验，如果采用手动搭配hadoop的各种组件的话，Java环境最好安装jdk1.7的版本。因为这个版本不旧不新，可以满足几乎整个hadoop生态圈组件的要求而很少会出现兼容性的问题。这样的话，你就可以首先在你的的机子上把hadoop集群搭好，然后在hadoop集群的基础上再装zookeeper集群实现hadoop的高可用。然后就能在在之前的基础上装hive(需要装MySQL)实现用hi

2017-10-27 17:18:30 537

原创史上最详细安装JZMQ(jdk1.6下)

1、执行git clone https://github.com/nathanmarz/jzmq.git报错bash: git: command not found提示git没有安装，执行下面的命令yum install -y git然后，继续执行git clone https://github.com/nathanmarz/jzmq.git成功，接着进入jzmq目录中 cd jzmq/然后执行下面

2017-10-22 13:47:05 527

原创史上最详细安装zeroMQ（前提是一定要配置好网络yum源）

1、下载ZeroMQ(如果下面的命令下载的太慢，就自己百度下载一个zeromq-2.1.7.tar.gz，然后上传到虚拟机里面)wget http://download.zeromq.org/zeromq-2.1.7.tar.gz2、解压ZeroMQ，重命名$ tar zvxf zeromq-2.1.7.tar.gz$ mv zeromq-2.1.7.tar.gz zeromq$ cd zero

2017-10-22 13:27:47 2203

原创 Hive删除表

本章介绍了如何在Hive中删除表。当从Hive Metastore删除表，它删除了表/列的数据及其元数据。它可以是一个正常的表(存储在Metastore)或外部表(存储在本地文件系统); 不论什么类型Hive对待的方式相同。 Drop Table语句语法如下：DROP TABLE [IF EXISTS] table_name;以下语句为删除一个名为 employee 的表:hive> DROP

2017-10-22 10:51:51 14395

原创 Hive修改表

本章将介绍如何修改表的属性，如，修改表名，修改列名，添加列，并删除或替换列。不区分大小写Alter Table 语句语法ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_nameALTER

2017-10-22 10:43:54 237

原创 Hive中创建表（hive的使用和MySQL的使用很相似）

CREATE TABLE语句(不区分大小写)Create Table是用于在Hive中创建表的语句，语法和示例如下：语法：CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_co

2017-10-22 10:19:29 3389

原创 Hive删除数据库

DROP DATABASE语句DROP DATABASE是删除所有的表并删除数据库的语句。它的语法如下：DROP DATABASE StatementDROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];下面的查询用于删除数据库，假设要删除的数据库名称为userdb。hive> DROP DATABASE IF EX

2017-10-22 09:59:08 8017

原创 Hive创建数据库（不用区分大小写）

CREATE DATABASE语句hive默认自带一个名为default的数据库，如果建表时没有指定你要用哪个数据库，默认你的表就会建到default数据库中。CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>在这里，IF NOT EXISTS是一个可选子句，通知用户已经存在相同名称的数据库。可以使用SCHEMA 在DATABASE的这个命令

2017-10-21 17:22:34 7131

原创 Hive安装

第1步：验证JAVA安装在Hive安装之前，Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java：$ java –version如果Java已经安装在系统上，就可以看到如下回应：java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b13) Java HotSpot(TM) Client

2017-10-21 13:20:46 261

原创 hadoop+zookeeper+yarn搭建高可用完全分布式环境详细步骤

一、zookeeper集群的安装。（我亲自成功搭建过的一套集群，涉及到很多的细节，但是有的细节地方我不一定能完全写出，如果有遇到问题的可以留言）前提准备3台centos7.0虚拟机(1)首先设置每台虚拟机的网络连接方式为net方式，然后修改每台虚拟机的IP地址为静态IP（虚拟机设置里面），然后修改每台主机的主机名(/etc/hostname)，最后把下面的IP和主机名的映射写到每台虚拟机的/etc/

2017-10-21 10:11:12 2507

原创 CentOS 下配置网络yum源

Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。说白了就是你想在centos或者Redhat（Redhat是收费的，centos是Redhat的免费版）下安装软件的时候就用这个东东。而Redhat和centos最初的软件俺咋混个工具是RPM（自行百度），如果使用RPM安装某个软件，经常会出现错

2017-10-19 19:17:26 1482

原创 hive+hbase 细节详解

对于Hive来讲，两个重要的概念是内部表和外部表。内部表和外部表是针对数据存放的位置来说的。内部表和外部表的核心区别在于：当在hive中执行删除表的操作时，对于内部表来讲是将这张表的元数据和表中数据全部删掉。而对于外部表来讲仅仅是删除这张表的元数据信息。如果在hive中创建一张hbase内部表，那么在hive的数据仓库目录下只有表的目录而没有表的数据，因为表的数据存在hbase中，此时如果在hive

2017-10-18 21:04:43 391

原创 HBase中-ROOT-和.META.表

-ROOT-和.META.表，它们是HBase的两张内置表，从存储结构和操作方法的角度来说，它们和其他HBase的表没有任何区别，你可以认为这就是两张普通的表，对于普通表的操作对它们都适用。它们与众不同的地方是HBase用它们来存贮一个重要的系统信息——Region的分布情况以及每个Region的详细信息。

2017-10-14 19:34:34 597

原创 zookeeper 启动失败

bin/zkServer.sh start 启动zookeeper后再用bin/zkServer.sh status查看，显示：JMX enabled by defaultUsing config: /usr/local/zookeeper-3.5.0-alpha/bin/../conf/zoo.cfgClient port found: 2181Error contact

2017-10-11 19:31:32 546

原创 linux 下关于任务的命令

Linux

2017-10-09 19:49:10 249

jiaotongqu6470的博客