TurboBoost-CSDN博客

原创 hadoop+spark集群自动化部署实现

1.环境与安装包 CentOS 6.7 jdk-8u45-linux-x64.tar.gz zookeeper-3.4.5.tar.gz hadoop-2.7.2.tar.gz spark-2.0.0-bin-hadoop2.7.tgz 2.部署前准备1. 虚拟机安装CentOS系统安装完后配置： 1.配置IP 2.主机名以及主机与IP对应关系 3.防火

2016-09-23 16:40:38 2147

转载 CentOS 6.4安装Python

CentOS中会自带Python，但是版本太低。一般使用Python2.7及以上版本，在下更青睐于Python 3，感觉更加好用。不过CentOS安装任意版本过程都是一样的，现在以Python 3.4.5为例。1 安装编译器yum install gccyum install zlib-develyum install make2 linux上下载python3.4.5 + 解压缩wget

2016-08-17 10:37:32 462

原创数据标准化使用Python脚本处理excel单元格换行符

在下在做数据分析时，原始数据是excel格式的，导入hive表时将其转化为txt格式。 excel文件转txt格式的步骤如下： 1.打开另存为 2.选择txt格式保存 3.打开转成的txt将编码修改为UTF-8在往hive表中导入数据时常常以换行符‘\n’来分割条数据。然而有时因为数据格式不够标准，即excel单元格中存在着换行符情况。例子如下：在这个表格中，B3，B4单元格都存在这换行符。

2016-08-17 09:37:19 22078 3

原创 hadoop2.2.0安装spark1.1.0（maven编译）

1.环境配置hadoop-2.2.0 spark-1.1.0 maven-3.3.92.spark安装问题hadoop2.2.x版本支持spark1.1.0版本以及更低。而在目前spark官网上已经下载不到spark1.1.0版本（目前已经发布了spark2.0版本）。为了在机器上使用spark，选择了csdn上下载了spark1.1.0的源码，自己尝试编译。编译的方法有两种：sbt以及ha

2016-08-16 12:51:30 502

原创 python连接mysql

1.环境配置**系统 Windows 10 python3.5.0 mysql**2.安装pymysql在配置好python系统环境变量后，进入cmd模式，使用easy_install.exe pymysql3进行安装,没有报错即代表安装成功3.连接测试测试代码如下：# coding:utf-8import pymysqlconn = pymysql.connect(host='192.16

2016-08-10 10:18:29 570

原创使用sqoop将hive数据导入mysql实例

1.环境配置 ##CentOS6.5 hadoop2.2 jdk1.7.0 sqoop1.4.4 zookeeper3.4.5 Mysql 14.142.在mysql上创建表先按照需求在mysql上创建表CREATE DATABASE demo;USE demo;DROP TABLE IF EXISTS task2;CREATE TABLE task2(month TINYINT,

2016-08-03 18:29:05 2998

1.背景在下在研究hive时，手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个，将它们统一编号使用rz命令上传到linux虚拟机上，放在同一个新建的文件夹下。首先是创建表，然后将所有txt文件中的数据导入表中LOAD DATA LOCAL INPATH '/root/test/*.txt' INTO TABLE turbo;这时候就可以对表进行操作了，首先

2016-07-29 17:33:14 2328 1

原创 hive中的时间函数具体应用

本文写在该博文基础上——*hive中的时间处理函数 http://blog.csdn.net/ningyuanhuo/article/details/21481307*在对日期处理时候，当要求时间差时，可以将时间转化为unix格式再做加减。使用unix_timestamp(string date)函数时，有一点很重要，即一定要遵守date格式“yyyy-MM-dd HH:mm:ss“。在下今天在对

2016-07-27 22:19:12 621

原创 hive中查询案例（表的建立以及split函数使用）

1.hive表的两种类型在hive上创建表时，有内表与外表两种类型，对应的语句为 CREATE TABLE 与CREATE EXTERNAL TABLE。其中创建内表过程中，hive会将数据移动到数据仓库指向路径。而创建外表时，记录数据所在路径，不对数据进行任何操作。因此删除数据表时，内表的元数据与数据一同删除，而外表数据不会改动，仅删除元数据。在使用时尽量使用外表，以防不时删除表带

2016-07-26 23:22:33 6005 1

原创日常一些小问题与解决方案总结

１　解决Sublime Text 3在GBK编码下的中文乱码问题_百度经验 http://jingyan.baidu.com/article/fc07f98972ee0a12fee51943.html２　字符突然改变大小和边距　　是因为全角和半角符号的关系，如图修改为半角符号问题得以解决

2016-07-25 16:14:25 452

原创 hadoop使用心得总结

想到什么平常遇到的问题就记一下，持续更新。。。1.修改完profile文件后记得source一下。

2016-07-25 09:46:34 2012

原创 hadoop中filesystem无法显示（ Can't browse the DFS since there are no live nodes available to redirect to.）

2.2.0版本中通过filesystem进入 http://192.168.211.128:50070/nn_browsedfscontent.jsp 界面显示如下：HTTP ERROR 500Problem accessing /nn_browsedfscontent.jsp. Reason:Can't browse the DFS since there are no live node

2016-07-24 20:23:22 3487

原创 Hadoop无法启动namenode(connect to host olddriver port 22: Connection refused)

在hadoop中启动namenode时提示 Starting namenodes on [olddriver] olddriver: ssh: connect to host olddriver port 22: Connection refused 系统是centOS6.5的，之前成功过没出现过这个问题。仔细一看我的hostname知道问题所在了 [root@Slave logs]#

2016-07-24 13:49:12 4020

collaboom的博客