大数据
leoe_
这个作者很懒,什么都没留下…
展开
-
Hadoop之Hive的安装与配置
环境信息:虚拟机数量:3台操作系统:Ubuntu 14.04实验环境及版本:Hadoop:Hadoop 2.2.0Java:java version "1.7.0_51"Hive:apache-hive-1.2.1MySQL:mysql Ver 14.14 Distrib 5.5.44(x86_64)安装Hive之前首先要确保hadoop集群搭建成功(1)Hive...原创 2018-05-19 09:19:01 · 5454 阅读 · 0 评论 -
《数据挖掘核心技术揭秘》笔记
原先我对于数据挖掘只停留在了爬虫获取数据,使用工具对数据进行清洗,然后整理汇总出需要的信息的这个层次。看完这本书之后才发现了之前使用爬虫得到数据只能叫做数据获取,真正的数据挖掘远远复杂,在数据挖掘中有着那么多的magic的算法,其中每个单元的知识都需要一本书去好好学习,这里只是简单的介绍下,其中对于上TB数据的处理,在使用了这些算法之后不单单能够得到自己需要的数据因素,还可以做机器学习更深一层的应...原创 2018-03-26 20:43:24 · 1403 阅读 · 0 评论 -
Java 对HDFS接口调用
使用HDFS提供的API来对分布式文件系统中的文件进行基本的操作,在linux下是不需要连接的,在windows下连接hdfs有三种方式:Configuration conf = new Configuration();//第一种方式conf.set("fs.defaultFS", "hdfs://10.49.85.152:9000");//第二种设置configuration方式...原创 2018-03-29 20:06:00 · 1689 阅读 · 0 评论 -
Hbase java API 的调用例子
1、首先要在项目中导入Hbase依赖的jar包2、修改windows中的 C:\Windows\System32\drivers\etc\hosts10.49.85.152 master10.49.85.182 slaver110.49.85.183 slaver23、Java API import java.io.IOException;impor...原创 2018-03-15 11:48:55 · 825 阅读 · 0 评论 -
Hbase分布式搭建之Hbase搭建
在安装之前先介绍下Hbase,Hadoop生态系统中HBase所处位置,实现的功能,解决的问题。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,...原创 2018-03-15 11:45:40 · 8843 阅读 · 0 评论 -
Hbase分布式搭建之Zookeeper搭建
zookeeper 安装包:https://download.csdn.net/download/leoe_/102922561、解压zooker-3-4-5.tar.gz解压:# tar -zxf zookeeper-3.4.5.tar.gz 更改名字为zookeeper:# mv zookeeper-3.4.5 u-zookeeper2、修改zoo.cfg配置文...原创 2018-03-15 10:48:44 · 695 阅读 · 0 评论 -
Hbase分布式搭建之hadoop搭建
一、搭建环境虚拟机数量:3台 操作系统:Ubuntu 14.04 Hadoop:Hadoop 2.2.0 Java:java version “1.7.0_51”需要的安装包: jdk:https://download.csdn.net/download/leoe_/10292237 hadoop 和 zookeeper:https://download.csdn....原创 2018-03-15 10:36:02 · 482 阅读 · 0 评论 -
基于hadoop (hdfs)+ javaweb (ssh)实现的网盘
最近在学习hadoop的相关知识,顺便在自己的虚拟机上做一个hadoop 的javaweb项目,类似于一个云盘的效果,通过hadoop中的hdfs文件管理来实现一些文件的上传和下载的功能,现在已经做到能够实现文件的上传功能,还在进一步的完善中,等过几天再把完整的项目内容贴到这上面。首先说一下关于hadoop的搭建步骤: 1、首先要在linux上安装hadoop,步骤很简单,但是会有很多的细节问原创 2017-05-05 11:34:06 · 9494 阅读 · 4 评论 -
基于Ubuntu的Hadoop集群安装与配置
因为学习的需要,需要部署一个hadoop的集群,在网上有很多的hadoop集群安装教程但是有的不够详细而且中间有的问题没有指出来我结合了一些安装的教程,在这里通过结合我自己搭建的过程以及遇到的一些问题写出一篇比较完善的安装教程。首先说明下我的安装环境,我但是在一台ubuntu系统的主机和一台windows上安装两个虚拟机ubuntu来搭建集群。ubuntu的版本都是14.04的桌面版的。安装的步原创 2017-04-05 13:58:02 · 3758 阅读 · 1 评论 -
Call to master/*:9000 failed on connection exception: java.net.ConnectException: Conne 错误解决
在用eclipse hadoop 出现这个错误 一般都是由于网络连接问题一般造成错误的原因可能为:1、hadoop未全部启动,hadoop正常启动包括以下几个服务,如果服务没有全部启动。可以通过jps 查看日志。根据日志来启动为启动的服务2、伪分布式模式安装时,在配置文件是使用了localhost 或者是127.0.0.1 此时应该改为真实的ID 其中需要修改的文件包括了 co原创 2017-03-17 20:08:57 · 7208 阅读 · 0 评论 -
Hadoop大数据案例之搜狗五百万数据分析
最近使用了hadoop中的hive、mapreduce以及HBASE对网上的一个搜狗五百万的数进行了一个比较实际的数据分析,适合新手去练习,好处是在接触较大的数据流的时候能碰到平时接触不到的问题,通过这些问题能够对自己有一个较好的提升,为以后接触到实际的大数据项目打一些有效的基础。数据源: 数据说明:搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足...原创 2018-05-22 12:00:05 · 19228 阅读 · 2 评论