大数据开发
文章平均质量分 68
Joy_cj
Python忠实粉丝,热爱互联网行业。喜欢研究数据,对机器学习有一定认识。
展开
-
HBASE三种模式环境搭建
解压HBASE的tar包并配置HBASE的环境变量tar -zxvf hbase-1.3.1-bin.tar.gz -C /training/ 设置环境变量 vi /etc/profile HBASE_HOME=/root/training/hbase-1.3.1 export HBASE_HOME PATH...原创 2018-09-19 21:03:33 · 566 阅读 · 0 评论 -
Hadoop基础认识之WordCount
大数据的核心是分布式存储HDFS和分布式计算MapReduce! 其中分布式计算MapReduce最基础实例Wordcount如下所示: 依赖jar包 $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapre...原创 2018-09-04 15:13:33 · 301 阅读 · 0 评论 -
HDFS操作命令
操作HDFS 1、通过Web Console: 50070、50090 2、命令行 (1)操作命令 hdfs dfs ***** -mkdir 创建目录 举例:hdfs dfs -mkdir /aaa hdfs dfs -mkdir -p /bbb/ccc ...原创 2018-08-30 19:20:49 · 705 阅读 · 0 评论 -
HDFS高级功能
HDFS的高级功能 1、回收站 补充:Oracle的回收站 恢复:闪回(flashback) (1) 闪回表 flashback table (2) 闪回删除 flashback drop (3) 闪回查询 flashba...原创 2018-08-30 19:15:30 · 286 阅读 · 0 评论 -
eclipse连接hadoop集群
1.首先需要启动hadoop集群,如下:2.hadoop集群的启动后的进程:3.关闭防火墙和查看防火墙状态。4.配置本机用户名: 环境变量下面添加如下所示。配置后需要重启电脑用户名才可以生效。5.添加链接需要的jar包:D:\LearningTool\eclipse\plugins 到该路径下...原创 2018-06-15 01:20:45 · 1323 阅读 · 0 评论 -
hive的安装
hive的安装需要依附在hadoop的环境中,hadoop伪分布式搭建参考:https://blog.csdn.net/cjdashuju_java/article/details/803022671.hive安装包下载https://hive.apache.org/downloads.html Download a release now!(最新版本下载)2.Apache产品所有版本安装包ht...原创 2018-06-13 00:16:01 · 429 阅读 · 0 评论 -
大数据人工智能时代你跟上步伐了吗?(号称第四次技术革命)
大数据人工智能时代1.世界四次工业革命讲到大数据人工智能不得不提起世界著名改变时代的工业革命。大数据人工智能是继蒸汽机,电力,信息互联网后的第四次技术革命。著名的工业革命详情如下:第一次革命:18世纪60年代英国发起的蒸汽技术革命,以蒸汽机为代表。第二次革命:19世纪中期,以欧洲国家,美国,日本发起的电力技术革命,以1866年德国西门子发明的发电机为代表。第三次革命:20世纪四五十年代,世界各个国...原创 2018-05-08 19:53:45 · 5408 阅读 · 1 评论 -
hadoop伪分布式搭建详细步骤
伪分布式搭建(看了这个还搭建不出来伪分布式?根本不可能!)1.修改映射文件vi /etc/hosts在最末尾添加192.168.182.66(你自己的IP)master(自己主机名)2.上传jdk和hadoop的压缩包并解压tar -xvzf hadoop-2.7.1.tar.gztar -xvzf jdk-8u121-linux-x64.tar.gz解压后删如下图所示:(压缩包我已经删除)3.配...原创 2018-05-13 21:31:17 · 907 阅读 · 0 评论 -
hive和hbase的通俗易懂的区别
1.区别(1)hive是构建在hadoop基础设施上的数据仓库,通过HQL(类似SQL语言)最终转化为MapReduce。 hbase是一种key/value系统,他运行在hdfs上,和hive不一样,hbase能够在数据库上实时运行,而不是运行MapReduce任务。(2)hive查询花费时间很长,他默认遍历表中的所有数据。但可以通过hive的分区机制提高效率。 hb...原创 2018-05-03 09:45:06 · 6507 阅读 · 1 评论 -
Hadoop,Spark和Storm三大分布式计算系统简介及比较
Hadoop,Spark和Storm由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Dou...原创 2018-04-20 16:30:38 · 1175 阅读 · 1 评论 -
Hadoop生态系统完整组件及其在架构中的作用
(1)Hadoop生态系统(2)、HDFS(Hadoop分布式文件系统)HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。(3)、Mapreduce(分布式计算框架)MapReduce是一种计算模型,用以进行大数...原创 2018-04-23 15:25:28 · 6485 阅读 · 0 评论