黄黄一一-CSDN博客

转载 hive add columns后新插入列数据为空

hive在新加列(add columns)后，再load数据时，理论上来说新增的列如果有数据的话会展示出来；但是add和load后没有展示出对应的数据，hdfs的文件里是有对应的数据的，desc表结构时也有对应的字段；但是在查看元数据时，发现表的元数据没有发生变化，没有新增加进这一列，具体原因还未知；最终也没有找到具体的原因，个人觉得是元数据库的同步问题，类似于oracle的脏读，没有...

2018-08-08 16:41:09 4154 1

原创列式数据库HBase搭建

为了不让我集群压力太大，所以我就用了一个两台机子的集群，简单介绍下集群的架构。集群没有任何一个地方设置了高可用，只是在h-slave上安装了zookeeper而已，之前一直有个误区，为了安装hbase引入zookeeper，以为一定要实现集群某个方面的高可用，后面经过实验才发现完全是多余的。

2017-08-11 11:16:30 513

转载 centos7搭建hadoop集群

目录(?)[+]先期准备网络配置配置ip和主机名hosts映射配置ssh无密码登陆到slave1slave2上jdk8hadoop配置运行案例关闭防火墙和selinux启动hadoop集群执行案例先期准备主机系统 ip地址 hadoop-master centos7 192.168.196.162 hadoop-slave1 centos7 1

2017-08-11 11:04:21 405

转载 centos7 搭建ha(高可用)hadoop2.7.3集群

centos7 搭建ha(高可用)hadoop2.7.3集群 <div class="article_manage clearfix"> <div class="article_r"> <span class="link_postdate">2017-06-29 10:51</span> <s

2017-08-11 11:01:23 763

原创 Hadoop HA使用中遇到的坑

之前笔者一直用的一个master一个slave的集群，后来给笔记本加了个内存条后，加上开始学习zookeeper，开始频繁使用两个master，3个slave的高可用集群了。之前以为没有什么区别，但是使用中还是遇到了不少的小坑。1. 先说集群启动顺序 **配置好第一次启动：** 1.每个slave启动zookeeper服务，执行zkServer.sh start，jps可以

2017-08-05 23:00:30 979 1

原创资源调度框架YARN

hadoop1.x中MapReduce存在的问题：1.单点2.节点压力大YARN：Yet Another Resource Negotiator(另外一种资源协调者) 是一个通用的资源管理系统，可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率，资源统一管理和数据共享等方面带来了巨大的好处YARN架构：核心组件： ResourceManager NodeMan

2017-08-02 14:18:26 660

原创 MRUnit测试map/reduce

Mrunit是一种对mapreduce进行单元测试的工具，其特点是不需要启动集群。首先利用maven先加上一来，我们用的是hadoop2.7.3。 org.apache.mrunit mrunit 1.1.0 hadoop2 如果不能下载的话，建议去官网下载源码，然后进行编译。地址：

2017-07-31 16:24:17 313

原创分布式计算框架MapReduce

既然环境都搭建起来了，那么就来实际跑一个hadoop界的hello world程序。—-wordcount，（下面程序并非源码）。 1.新建一个maven项目，输入groupId和ArtifactId. 2.修改pom.xml文件。加上hadoop的依赖，版本对应集群版本 <dependency> <groupId>org.apache.hadoop</grou

2017-07-26 10:50:04 240

原创 CentOS完整版软件安装

1.JDK，自带Open JDK 删除之，再安装我们自己下载的sun公司的JDK1.8 切换到root用户，yum -y remove copy-jdk-configs-1.2-1.el7.noarch -y参数的意思是，遇到需要选择yes/no的地方，都选yes 再执行下rpm -qa | grep jdk，确认下jdk删除干净了。把下好的压缩包以及RPM文件传上去切换到

2017-07-21 15:09:48 1411

原创 Python Django(自写Views)

基本的上篇博客已经介绍了，这篇我们来绕点远路。自己写views以及数据库操作。还是在上一个NBA项目的基础上，新建player模块。 1.Ctrl+Alt+R ==》startapp players 2.二话不说，就来新建模型 models.pyfrom django.db import modelsfrom team.models import teamcla

2017-07-18 23:22:58 892

原创 Python-Django（系统自带后台管理）

django （Python Web 框架） Django是一个开放源代码的Web应用框架，由Python写成。采用了MVC的框架模式，即模型M，视图V和控制器C 我们系统环境中已经安装了Python3.3了，Django需要继续安装，这里我们采用pip安装。 pip install django 等待安装完了之后，在下图位置可以找到我们django的开发，

2017-07-18 17:48:35 13872 2

原创 Hadoop集群配置

之前简单搭了一个hadoop伪分布集群，后来改成高可用了，两台master，三台slave，但是笔记本内存只有4G，跑起来实在费劲，于是，只能又从头开始搭最简单的，一个master，一个slave的集群。这次的目标就是，不上网查攻略，尽量写脚本完成，然后把博客写完！ 1.克隆两个最小化安装版的虚拟机，系统，centOS7 我把master取名：h-master，slave取名h-slave

2017-07-18 12:09:10 353

原创 XML解析2（SAX）

sax （用于处理XML事件驱动的推模型）SAX，全称Simple API for XML，既是一种接口，也是一种软件包。它是一种XML解析的替代方法。SAX不同于DOM解析，它逐行扫描文档，一边扫描一边解析。由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中，这对于大型文档的解析是个巨大优势。—————————-JAVA———————————- 1.创建工厂 /

2017-07-04 11:37:38 273

原创 XML解析（Dom4j）

Dom(文档对象模型（Document Object Model）)W3C 文档对象模型（DOM）是中立于平台和语言的接口（可用于任何编程语言），它允许程序和脚本动态地访问和更新文档的内容、结构和样式。Dom的特点：将文档一次性加入到内存，并解析为树状结构的数据。所以说Dom只适合于解析相对较小的文件，不然的话一次性读入到内存中，将很容易造成内存溢出。整个文档是一个文档节点每

2017-07-02 23:13:44 400

原创盒子趣题

哈哈，再分享道有意思的题目，代码其实很简单，主要是想明白~ 定义一个盒子类，有一个属性，三个方法：public class Box{ Boolean flag = false; public Box(){ } public void open(){ flag=true; } public void close(){ fl

2017-06-23 23:39:59 275

原创排序

如果我们定义了一个Person类，Student类，或者是通讯录类，那么我们应该怎么对这些类的对象进行排序呢。比如说，Person类通过age排序，Student类通过年级排序，通讯录通过名字排序。下面我们就以Person类为例，介绍JAVA中几种排序的办法。 Person类（对应的Get/Set方法已省略）public class Person { private String na

2017-06-23 23:28:12 216

原创二叉树的创建和遍历

这周主要focus在两大块。二叉树和排序方法 1.二叉树比如一组数据，5，3，6，9，2，7，1，要进行有序输出，我们可以画一个如下图的二叉树。其中将每个数据作为一个节点，第一个数据作为根节点（5），每来一个数据都于根节点比较，若是比根节点大，则往右边走，继续判断根节点右边有没有节点，如果有，则继续与右节点比较，如果没有则将此节点作为右节点。对于二叉树的遍历方式有三种：中跟序（先

2017-06-23 15:55:36 314

原创 python练习总结

有java基础再学python一切都很简单了。总结一下老师说的几个经典的例子。 1.range（）函数的使用for i in range(10,1,-1): print(i,end=" ")可以写成这样，但是不能写成使用关键字传参,range(start=0,stop=10,step=1). 其中start和step参数可以省略，如果只写了一个参数，如range(10)表示是[

2017-06-16 22:55:16 354

qq_14814971的博客