自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hadoop+spark集群自动化部署实现

1.环境与安装包 CentOS 6.7 jdk-8u45-linux-x64.tar.gz zookeeper-3.4.5.tar.gz hadoop-2.7.2.tar.gz spark-2.0.0-bin-hadoop2.7.tgz 2.部署前准备1. 虚拟机安装CentOS系统 安装完后配置: 1.配置IP 2.主机名以及主机与IP对应关系 3.防火

2016-09-23 16:40:38 2147

转载 CentOS 6.4安装Python

CentOS中会自带Python,但是版本太低。一般使用Python2.7及以上版本,在下更青睐于Python 3,感觉更加好用。不过CentOS安装任意版本过程都是一样的,现在以Python 3.4.5为例。1 安装编译器yum install gccyum install zlib-develyum install make2 linux上下载python3.4.5 + 解压缩wget

2016-08-17 10:37:32 462

原创 数据标准化 使用Python脚本处理excel单元格换行符

在下在做数据分析时,原始数据是excel格式的,导入hive表时将其转化为txt格式。 excel文件转txt格式的步骤如下: 1.打开另存为 2.选择txt格式保存 3.打开转成的txt将编码修改为UTF-8在往hive表中导入数据时常常以换行符‘\n’来分割条数据。然而有时因为数据格式不够标准,即excel单元格中存在着换行符情况。例子如下:在这个表格中,B3,B4单元格都存在这换行符。

2016-08-17 09:37:19 22078 3

原创 hadoop2.2.0安装spark1.1.0(maven编译)

1.环境配置hadoop-2.2.0 spark-1.1.0 maven-3.3.92.spark安装问题hadoop2.2.x版本支持spark1.1.0版本以及更低。而在目前spark官网上已经下载不到spark1.1.0版本(目前已经发布了spark2.0版本)。为了在机器上使用spark,选择了csdn上下载了spark1.1.0的源码,自己尝试编译。 编译的方法有两种:sbt以及ha

2016-08-16 12:51:30 502

原创 python连接mysql

1.环境配置**系统 Windows 10 python3.5.0 mysql**2.安装pymysql在配置好python系统环境变量后,进入cmd模式,使用easy_install.exe pymysql3进行安装,没有报错即代表安装成功3.连接测试测试代码如下:# coding:utf-8import pymysqlconn = pymysql.connect(host='192.16

2016-08-10 10:18:29 570

原创 使用sqoop将hive数据导入mysql实例

1.环境配置 ##CentOS6.5 hadoop2.2 jdk1.7.0 sqoop1.4.4 zookeeper3.4.5 Mysql 14.142.在mysql上创建表先按照需求在mysql上创建表CREATE DATABASE demo;USE demo;DROP TABLE IF EXISTS task2;CREATE TABLE task2(month TINYINT,

2016-08-03 18:29:05 2998

原创 hive处理实际数据时数据总量的问题

1.背景在下在研究hive时,手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个,将它们统一编号使用rz命令上传到linux虚拟机上,放在同一个新建的文件夹下。首先是创建表,然后将所有txt文件中的数据导入表中LOAD DATA LOCAL INPATH '/root/test/*.txt' INTO TABLE turbo;这时候就可以对表进行操作了,首先

2016-07-29 17:33:14 2328 1

原创 hive中的时间函数具体应用

本文写在该博文基础上——*hive中的时间处理函数 http://blog.csdn.net/ningyuanhuo/article/details/21481307*在对日期处理时候,当要求时间差时,可以将时间转化为unix格式再做加减。使用unix_timestamp(string date)函数时,有一点很重要,即一定要遵守date格式“yyyy-MM-dd HH:mm:ss“。在下今天在对

2016-07-27 22:19:12 621

原创 hive中查询案例(表的建立以及split函数使用)

1.hive表的两种类型在hive上创建表时,有内表与外表两种类型,对应的语句为 CREATE TABLE 与CREATE EXTERNAL TABLE。 其中创建内表过程中,hive会将数据移动到数据仓库指向路径。 而创建外表时,记录数据所在路径,不对数据进行任何操作。 因此删除数据表时,内表的元数据与数据一同删除,而外表数据不会改动,仅删除元数据。在使用时尽量使用外表,以防不时删除表带

2016-07-26 23:22:33 6005 1

原创 日常一些小问题与解决方案总结

1 解决Sublime Text 3在GBK编码下的中文乱码问题_百度经验 http://jingyan.baidu.com/article/fc07f98972ee0a12fee51943.html2 字符突然改变大小和边距    是因为全角和半角符号的关系,如图修改为半角符号问题得以解决

2016-07-25 16:14:25 452

原创 hadoop使用心得总结

想到什么平常遇到的问题就记一下,持续更新。。。1.修改完profile文件后记得source一下。

2016-07-25 09:46:34 2012

原创 hadoop中filesystem无法显示( Can't browse the DFS since there are no live nodes available to redirect to.)

2.2.0版本中通过filesystem进入 http://192.168.211.128:50070/nn_browsedfscontent.jsp 界面显示如下:HTTP ERROR 500Problem accessing /nn_browsedfscontent.jsp. Reason:Can't browse the DFS since there are no live node

2016-07-24 20:23:22 3487

原创 Hadoop无法启动namenode(connect to host olddriver port 22: Connection refused)

在hadoop中启动namenode时提示 Starting namenodes on [olddriver] olddriver: ssh: connect to host olddriver port 22: Connection refused 系统是centOS6.5的,之前成功过没出现过这个问题。 仔细一看我的hostname知道问题所在了 [root@Slave logs]#

2016-07-24 13:49:12 4020

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除