大数据
昆山人在上海
暂无
展开
-
Spark入门(Python版)
转自:http://blog.jobbole.com/86232/ Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一转载 2016-09-08 10:59:02 · 2188 阅读 · 0 评论 -
Ubuntu 16.04 上使用devstack部署openstack
安装步骤如下: git clone https://git.openstack.org/openstack-dev/devstack devstack更目录下创建local.conf文件 [[local|localrc]] ADMIN_PASSWORD=secret DATABASE_PASSWORD=$ADMIN_PASSWORD RABBIT_PASSWORD=$AD原创 2016-10-29 22:24:16 · 3145 阅读 · 0 评论 -
Apache Phoenix 4.8.1 + HBase 1.2.3 整合
步骤如下: 1. 下载Phoenix 4.8.1: https://mirrors.tuna.tsinghua.edu.cn/apache/phoenix/apache-phoenix-4.8.1-HBase-1.2/bin/ 2. 解压后,配置环境变量。 3. 拷贝根目录下phoenix-4.8.1-HBase-1.2-server.jar文件到$HBASE_HOME/lib目录下,原创 2016-10-28 16:57:35 · 2086 阅读 · 1 评论 -
Apache Flink 1.1.3 安装配置
直接按照官网的来就行了,这个本地部署很容。 https://ci.apache.org/projects/flink/flink-docs-release-1.1/quickstart/setup_quickstart.html Important: Maven artifacts which depend on Scala are now suffixed with th原创 2016-10-28 13:37:42 · 2777 阅读 · 0 评论 -
Apache Flume 1.7.0 配置安装
转自:http://blog.csdn.net/alphags/article/details/52862578 本文内容主要参考自Apache Flume用户文档(http://flume.apache.org/FlumeUserGuide.html),由于关于Apache Flume 1.X的中文参考资料不是很多,所以这里将我部署的过程记录下来,希望能给有同样需要的人们有一些原创 2016-10-28 13:00:35 · 813 阅读 · 1 评论 -
Sqoop1.99.7 安装、配置和使用
转自: http://blog.csdn.net/u012842205/article/details/52344196 http://blog.csdn.net/u012842205/article/details/52346595 最近被Sqoop2彻底搞蒙了,各种各样的奇怪问题,层出不穷,而且网上资料都没有针对这些问题的,官方文档也有各种各样的不完整描述。一些注意事转载 2016-10-28 09:52:36 · 2142 阅读 · 1 评论 -
Storm 1.0.2 - 单词计数案例学习
转自: http://www.cnblogs.com/jonyo/p/5861171.html 单词计数拓扑WordCountTopology实现的基本功能就是不停地读入一个个句子,最后输出每个单词和数目并在终端不断的更新结果,拓扑的数据流如下: 语句输入Spout: 从数据源不停地读入数据,并生成一个个句子,输出的tuple格式:{"sentence":"h转载 2016-10-27 22:26:22 · 1677 阅读 · 0 评论 -
Storm 1.0.x 运行环境的安装
转自:http://m.blog.csdn.net/article/details?id=51143726 本文环境如下: 操作系统:CentOS 6 32位 ZooKeeper版本:3.4.8 Storm版本:1.0.0 JDK版本:1.8.0_77 32位 python版本:2.6.6 集群情况:一个主控节点(Master)和两个工作节点(Slav转载 2016-10-27 21:51:59 · 1474 阅读 · 0 评论 -
Spark 2.0.1 运行环境的安装与测试
转自:http://www.cnblogs.com/anlei/p/5996818.html 1. 官网下载 wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.7.tgz 2. 解压 tar -zxvf spark-2.0.1-bin-hadoop2.7.tgz原创 2016-10-27 21:35:38 · 1135 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
转自:http://www.cnblogs.com/laov/p/3434917.html 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保存多个副转载 2016-10-27 20:28:33 · 361 阅读 · 0 评论 -
Hadoop2.7.3 + Hive 2.1.0 + HBase 1.2.3 整合
首先需要一次搭建好hadoop,hive,hbase的环境,参考文档如下: http://blog.csdn.net/kunshan_shenbin/article/details/52933499 http://blog.csdn.net/kunshan_shenbin/article/details/52938294 http://blog.csdn.net/kunshan_sh原创 2016-10-27 16:36:28 · 3570 阅读 · 2 评论 -
Hadoop2.7.3 + HBase1.2.3 + ZooKeeper3.4.9 整合
首先需要部署好Hadoop2.7.3环境,可参考:http://blog.csdn.net/kunshan_shenbin/article/details/52933499 1. 下载hbase1.2.3版本并解压,配置hbase环境变量如下: export HBASE_HOME=/Users/bin.shen/BigData/hbase-1.2.3 export PATH=$HBASE原创 2016-10-27 13:43:45 · 3165 阅读 · 1 评论 -
Hadoop2.7.3+Hive2.1.0整合实现wordcount程序
首先需要在本地搭建hadoop环境,参考:http://blog.csdn.net/kunshan_shenbin/article/details/52933499 下载hive2.1.0,解压,配置hive环境变量。本地安装mysql,创建数据库hive_db, 下载MySQL jdbc驱动,病放到hive安装目录的lib目录下。 修改Hive配置:hive/conf/下 1) hive-原创 2016-10-26 21:24:15 · 2180 阅读 · 0 评论 -
Mac上通过伪分布方式部署Hadoop 2.7.2
转自:http://blog.csdn.net/cdut100/article/details/51813481 1. 无密码登录localhost的设置 1. ssh-keygen -t rsa Press enter for each line 2. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 3. chmod og-wx ~/.s转载 2016-10-26 13:47:28 · 2882 阅读 · 4 评论 -
hive支持sql大全(收藏版)
hive操作数据库还是比较方便的,因此才会有hbase与hive整合。下面我们hive的强大功能吧。为了增强阅读性,下面提几个问题: hive支持哪些运算符? hive是否支持左右连接? hive如何截取字符串? hive提供了那些系统函数? 目录 一、关系运算:... 4 1. 等值比较: =. 4 2. 不等值比较: 3. 小于比较: 4原创 2016-11-12 16:46:32 · 1155 阅读 · 0 评论