
hadoop
SoLucky2017
这个up主有点懒,懒上青天
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hbase - regionserver存储过程(写过程)
架构图 写入流程 Hadoop 生态圈 来源 Google 的三篇论文: 谷歌有三宝 计算(MapReduce) 存储(GFS)和 大表(BIgtable) BigTable ---> HBase Hadoop DataBase 传统的关系型数据库 : Mysql Oracle 操作方式 : sql操作 什么叫做关系型数据库 : 基于关系模型提出来数据库,数据最终保存在一张二维表里面 HBase 是一个Nosql not only sql ...原创 2020-06-07 11:22:33 · 607 阅读 · 0 评论 -
hadoop mapreduce数据倾斜
三个测试文件: 1 2 3 .txt hello tom1 ---tom30 最终生成分区文件: hello分布到part-r-00001上 采用随机分区 结果:hello随机分布 2阶mapreduce 结果: 解决了大数据量的数据倾斜 总结:两次mapreduce计算,第一次减少统计的数据量,目的是均匀分...原创 2019-01-16 17:16:58 · 254 阅读 · 1 评论 -
HA-hadoop集群 高可用
基于hadoop完全分布式基础上 1 克隆s200 为s206 配置: ---1 -----2 -----3 [/etc/sysconfig/network-scripts/ifcfg-ethxxxx] ... IPADDR=.. -----4 service network restart 2配置200 206完...原创 2019-01-28 15:41:10 · 160 阅读 · 1 评论 -
Hbase-分布式+高可用
hadoop: master:s200 slave:s201 s202 s203 ---------------------------- zookeeper: s201 202 203 ---------------------------- hbase master:s200 s201 region:s201 s202 s203 -------------------...原创 2019-02-12 12:24:36 · 245 阅读 · 1 评论 -
storm集群
s201-s203 1安装配置环境变量: export STORM=/home/centos/soft/storm export PATH=$STORM/bin: 2配置文件修改: storm.local.dir: "/home/centos/storm" storm.zookeeper.servers: - "s202" - "s203" storm.zookeeper....原创 2019-03-15 14:07:03 · 188 阅读 · 0 评论 -
spark java world-count例子
导入spark包 在项目页“File” -> "project structure" -> "Libraries", 点“+”,选“java”,找到spark-assembly-1.2.0-hadoop2.4.0.jar导入,这样就可以编写spark的scala程序了(例子有空补) 下载spark的jar包, 在下载页面选择相应的spark版本, 包类型这里选择spark1...原创 2019-05-05 13:00:34 · 324 阅读 · 0 评论 -
spark1 安装以及集群启动
https://blog.csdn.net/u011444062/article/details/81486771转载 2019-04-30 09:28:20 · 185 阅读 · 0 评论 -
sprk scala count例子
1 cd到bin目录下 进入scala命令行 ./spark-shell 2 拷贝README.md到bin目录下 3scala语句 val lines=sc.textFile("README.md") lines.count() 4 提取前三行 val lines3=lines.take(3) ...原创 2019-04-30 14:58:26 · 2020 阅读 · 0 评论 -
spark操纵 mysql
pom: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht...原创 2019-05-07 14:47:16 · 108 阅读 · 0 评论 -
spark+hdfs+hive
1 启动hdfs https://blog.csdn.net/ssllkkyyaa/article/details/86735817 2启动hive https://blog.csdn.net/ssllkkyyaa/article/details/86527365 s200启动hive $HIVE_HOME/bin/hive 3启动spark https://blog.csdn.n...原创 2019-05-24 17:32:05 · 2568 阅读 · 1 评论 -
spark----rdd变化,action
RDD变换 ------------------ 返回指向新rdd的指针,在rdd之间创建依赖关系。每个rdd都有计算函数和指向父RDD的指针。 map() //对每个元素进行变换,应用变换函数 //(T)=>...转载 2019-06-14 09:05:35 · 184 阅读 · 0 评论 -
HA-hadoop自动容灾
----------------------------------------------------------------------------------------------------------------------- ----------------- ----------------- ----------------- -------------...原创 2019-02-01 09:26:39 · 813 阅读 · 3 评论 -
hadoop 单机 本地 多输入 mapreduce
码上代码: 建立测试环境: 创建seq 序列化文件: /** * 写操作 */ @Test public void zipGzip() throws Exception { Configuration conf = new Configuration(); conf.set("fs.defaultFS","fil...原创 2019-01-16 10:33:33 · 453 阅读 · 0 评论 -
hadoop idea连接远程hadoop 压缩解压缩文件
1创建测试文件 home/centos/zip/a.txt 2 代码编写 package com.it18zhang.hdfs.mr.compress; import com.hadoop.compression.lzo.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.IOUt...原创 2019-01-15 17:31:41 · 620 阅读 · 2 评论 -
Hadoop中DataNode没有启动解决办法
https://blog.csdn.net/u013129944/article/details/78604651 ./stop-dfs.sh 注意只删掉tmp/hdf/data也可以: hadoop namenode -format ./start-dfs.sh原创 2018-10-11 09:10:59 · 6639 阅读 · 0 评论 -
Hadoop 常用命令
1 建立index.html测试文件 vi index.html hello nihao helloworld hello world d d f g hallo world d d d 2 上传hadoop的hdfs上 hadoop fs=hdfs dfs hdfs dfs -mkdir -p /user/centos/hadoop hadoop fs -put index.html ...原创 2018-10-10 11:28:58 · 208 阅读 · 0 评论 -
hadoop localhost:50070/访问失败
1关闭防火墙 systemctl stop firewalld.service 2配置hdfs-site.xml <?xml version="1.0"?> <configuration> <property> <name>dfs.replication</name> <value>1</value&a原创 2018-10-31 17:04:41 · 17376 阅读 · 1 评论 -
hadoop读写操作
新建项目: 导入libs:再hadoop解压下的库 2.7.2: https://download.csdn.net/download/ssllkkyyaa/10758406 文件api测试: package com.example.demo; import org.apache.commons.io.output.ByteArrayOutputStream; import o...原创 2018-11-01 16:19:59 · 334 阅读 · 1 评论 -
Mapreduce ----完全分布式WorldCount(远程) 示例
1 建立项目 链接:https://pan.baidu.com/s/15yZQLMqnXFDsbJ_61iXAGw 提取码:44fh 复制这段内容后打开百度网盘手机App,操作更方便哦 下载见附件: https://download.csdn.net/upload/success 导出jar: HdfsDemo-1.0-SNAPSHOT.jar 2 建立测试1.txt ...原创 2018-11-02 15:54:33 · 575 阅读 · 0 评论 -
hive创建库Underlying cause: java.sql.SQLException : Access denied for user
grant all privileges on *.* to root@'%' identified by 'passwd'; 将数据库赋予权限原创 2019-01-17 15:35:28 · 4124 阅读 · 0 评论 -
Hive 安装 配置 连接mysql hive beeline
hive ------------------ 在hadoop处理结构化数据的数据仓库。 不是: 关系数据库 不是OLTP 实时查询和行级更新。 hive特点 ---------- hive存储数据结构(schema)在数据库中,处理的数据进入hdfs. OLAP HQL / HiveQL hiv...原创 2019-01-17 16:49:15 · 996 阅读 · 3 评论 -
mapreduce word count 本地机器运行
链接:https://pan.baidu.com/s/12b8Ef7Tem7WsMchCJbWFTw 提取码:ja19 复制这段内容后打开百度网盘手机App,操作更方便哦 坑:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V 原因:是你的ha...原创 2019-01-14 16:54:39 · 161 阅读 · 0 评论 -
完全分布式hadoop
1.克隆3台client(centos7) 右键s200-->管理->克隆-> ... -> 完整克隆 2.启动client 3.启用客户机共享文件夹。 4.修改hostname和ip地址文件 https://blog.csdn.net/ssllkkyyaa/article/details/83410871 ssh...原创 2018-11-01 08:52:22 · 235 阅读 · 5 评论 -
计数器与自定义计数器
https://www.cnblogs.com/edisonchou/p/4297599.html 实例: 链接:https://pan.baidu.com/s/1qeryRGn2oyXeyLSqabKBBA 提取码:5wia 复制这段内容后打开百度网盘手机App,操作更方便哦 关键代码: package com.example.demo.mapred; import ...转载 2019-01-15 14:59:48 · 722 阅读 · 0 评论 -
使用Docker搭建hadoop集群
https://blog.csdn.net/qq_33530388/article/details/72811705 外网访问 iptables -t nat -A DOCKER -p tcp --dport 50070 -j DNAT --to-destination 172.17.0.3:50070 ------------------------------------...转载 2018-09-25 14:54:08 · 2397 阅读 · 4 评论