Java/Web/Linux/Hadoop
linux
苏格拉没底——
一沙一世界
展开
-
HDFS-jobs
第二周第二次作业 1、HDFS有哪些局限性?不适合低延迟的数据访问,无法高效存储大量小文件,不支持多用户随机写入及任意修改文件。命名空间的限制:分布式文件系统只有一个名称节点且保存在内存中,因此名称节点能够容纳对象的个数受到内存空间大小的限制性能的瓶颈:整个分布式文件系统的吞吐量受限于单个名称节点的吞吐量集群的可用性:一旦这个唯一的节点发生故障,会导致整个集群变的不可用。hdfs只允许一个文件有一个写入者,不允许多个用户对同一个文件执行写操作,而且只允许对文件执行追加操作,不能执.转载 2023-07-08 00:10:16 · 94 阅读 · 0 评论 -
hadoopb笔记
/usr/local/hadoop./sbin/start-dfs.sh./sbin/stop-dfs.sh运行程序时候,输出目录不能存在./bin/hdfs dfs -get output ./outputcat ./output/*dblab.xmu.edu.cn/blog/install-hadoop/原创 2023-07-08 00:08:34 · 48 阅读 · 0 评论 -
python连接mysql数据库
1.连接import pymysql#创建一个连接对象conn = pymysql.connect( host = 'localhost', user = 'root', passwd = '123456', db = 'mydb', )2.建表# 创建光标对象 通过光标对象进行操作cursor = conn.cursor()create = """ CREATE TABLE ch4ex9 ( .原创 2021-01-24 22:33:38 · 194 阅读 · 0 评论 -
Hadoop集群动态添加删去节点
副本数实际设置的为3,但是发现却少了副本数原因:可能是另一个机子宕机了,或者slaves里面没有对应的hostname原创 2021-05-13 21:48:53 · 78 阅读 · 0 评论 -
zookeepe 解压报错gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error is not recovera
问题:解压报错原因:文件下载不完整,用wget下载没有跳过用户验证产生原因:1.用wget下载 清华镜像的apache/zookeeper到当前目录:wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3.tar.gz2.可以看到文件的大小如下,明显比网站上的小不少,可见有问题其他可能:文件的内容在 win传到lin...原创 2021-04-21 10:59:43 · 453 阅读 · 0 评论 -
大数据概论
文章目录大数据概论 1、大数据概念 2、大数据特点 1、Volume (大量) 2、Velocity (高速) 3、Variety (多样) 4、Value (低价值密度) 3、大数据应用场景 4、大数据部门业务流程分析 5、大数据部门组织机构 Hadoop 1、Hadoop是什么? 2、Hadoop发展史 3、Hadoop三大发行版本 1、Apache Hadoop 2、Cloudera Hadoop 3转载 2021-02-13 02:23:46 · 129 阅读 · 0 评论 -
Hadoop集群动态添加一个节点后,无法单节点启动加入集群
动态添加的那个节点,为了省去一些配置项,可以直接从slave2这个普通的节点上克隆,这样配置信息就都有了,但是最方便的往往不会是最简单的,这样反而会出现一些bug,因为克隆的是slave2(ip是静态的),克隆了后会出现无法上网的问题。克隆后需要配置 主机名,静态ip与hostname的映射,hosts 和 hadoop的slaves.然后删除掉 logs/ 和 data/ 中的内容 这个时候一定要记得换 hadoop 用户进行其他操作...原创 2021-05-13 21:00:16 · 187 阅读 · 0 评论 -
hadoop-2.7.3/etc/hadoop/slaves配置注意事项
需要分发到各个节点原创 2021-05-03 15:36:08 · 446 阅读 · 0 评论 -
Datanode多目录配置
具体配置如下hdfs-site.xml<property> <name>dfs.datanode.data.dir</name> <value> file:///${hadoop.tmp.dir}/dfs/data1, file:///${hadoop.tmp.dir}/dfs/data2 </value></pro原创 2021-05-14 15:17:39 · 162 阅读 · 0 评论 -
Hadoop基础知识3
1、MapReduce是什么?Hadoop MapReduce是针对谷歌MapReduce的开源实现,运行在分布式文件系统HDFS上。MapReduce是一种并行编程模型,用于大规模数据集(大于1TB)的并行运算,可以大幅提高程序性能,实现高效的批量数据处理。MapReduce的核心思想就是“分而治之”,它把输入的数据集切分为若干独立的数据块,分发给一个主节点管理下的各个分节点来共同并行完成,最后,通过整合各个节点的中间结果得到最终结果。它将复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数——翻译 2020-10-30 20:41:48 · 472 阅读 · 0 评论 -
start-hbase.sh Java HostSport(TM) 64-Bit Server VM warning: ignoring option PermSize=128m; support w
报错:原因:jdk版本为解决:原创 2021-04-23 12:46:52 · 222 阅读 · 0 评论 -
Mapreduce工作机制
翻译 2021-05-31 10:50:51 · 71 阅读 · 0 评论 -
MapReduce跑的慢的原因
翻译 2021-05-31 20:36:57 · 472 阅读 · 0 评论 -
hadoop单节点运行本地模式grep搜索
原创 2021-04-28 21:00:52 · 96 阅读 · 0 评论 -
hadoop单节点运行本地模式wordcount词频统计分析
原创 2021-04-28 21:02:35 · 207 阅读 · 0 评论 -
hdfs namende -formate 格式化名称节点
namenode格式化,顾名思义,格式化的是 namenode中的元数据,editlog,fsimage 什么在集群的使用过程中,最好不要格式化namenode,否则会出现错误,因为在集群的运行过程中,本身就会产生各种信息。先关闭集群 删除 namenode 和 datanode 的存储 文件夹 删除 日志文件 格式化可能存在的问题:格式化后如果出现 启动 namenode 的时候 datanode挂, 启动 datanode的时候 namenode 挂, 可能就是 cluster_i.原创 2021-04-29 19:46:02 · 1013 阅读 · 0 评论 -
大数据概论
1..大数据的应用前景金融(最吃香,侧重于安全性,如果后期想往其他方向转,不好转) 物流 零售(啤酒与尿布) 保险 房产 人工智能2..大数据的发展前景自古不变的真理:先入行者吃肉,后入行者喝汤,最后到的买单!17年高校才陆续开始设置大数据专业,大数据属于高新技术,大牛少,升职竞争少。3.大数据的业务流程分析4.大数据部门组织结构有时候我们并不是不想学,而是需要知道学这个是为了什么。平台组侧重技术,主要侧重于大数据平台的搭建,3-5年沉淀期, 上去了薪..原创 2021-02-02 00:33:37 · 139 阅读 · 0 评论 -
Hadoop集群配置_真分布式
1.集群部署规划注:所有的没有进行自定义的配置,其实都是使用的默认配置,只是这 default-site.xml 对我们相对透明master:hadoop102slave1 : hadoop103slave2 : hadoop104最佳集群部署规划: namenode, resourcemanager, secondarynamenode 都是资源的管理者,要占用 节点的内存, 如果把这些 管理者 都部署到 主节点master上,势必会造成内存资源的分配问题,最好的办法就是将其.原创 2021-05-02 16:52:12 · 177 阅读 · 0 评论 -
linux下 /etc/hosts 与 /etc/hostname 的区别
/etc/hostname 只是设置一下主机名:/etc/hosts 设置DNS域名和IP地址的映射:通过ssh远程登录的时候,其实是 ssh DNS 域名,主机根据 /etc/hosts 将 域名 和 IP 地址进行了 映射, 而非 根据 hostname来进行的。localhost 之所以 指向 127.0.0.1 也是因为 这个 /etc/hosts 的 开头的设置,而非 因为 /ets/hostname...原创 2021-04-27 08:59:56 · 672 阅读 · 0 评论 -
Hadoop组成
Hadoop的作用:Hadoop:为了解决 分布式存储 与 分布式计算分布式存储:HDFS分布式计算法:MapReduce资源调度和管理框架:YARNHadoop的组件:yarnresourcemanager nodemanager container application master resourcemanager : 处理client输入,调度整体集群的资源分配nodemanager:负责单个节点或者服务器的资源的管理,定期向resourceman..原创 2021-04-25 17:39:25 · 85 阅读 · 0 评论 -
core-site.xml
设置namenode的所在节点设置hadoop运行时的临时文件的存放位置王者的意识: hadoop.tmp.dir 如果没有设置,一般的 都 默认 放到了 /tmp 系统的 tmp 中原创 2021-04-28 21:52:40 · 1989 阅读 · 0 评论 -
hdfs-site.xml
xml 文件配置后出错: 可能是xml的 头文件注释给不小心弄掉了 也可能是 property 没有 包含到 configuration 里面xml 文件的配置 只是 会读 就好了, 不需要默写 背会, 到时候 粘上就 就可。hadoop 集群的启动是 会 调用 xml 配置文件的,所以配置文件的设置,也就决定了 hadoop集群的运行方式伪分布式要配置 etc/hadoop/ 下的 hadoop-env.sh ...原创 2021-04-29 01:08:28 · 3765 阅读 · 0 评论 -
Hadoop 基础知识2
第2周第1次作业1、什么是Hadoop?Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了分布式文件系统HDFS和MapReduce计算模型,借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的存储与处理分析。HDFS是针对谷歌文件系统GFS的开源实现,MapReduce是针对谷歌MapReduce的开源实现。Hadoop是基于Java语言开发的,具有很好的跨平台特性。2、大数据生态系统主要包括哪些方面?3、计算机集群的基本翻译 2020-10-30 20:38:48 · 2099 阅读 · 1 评论 -
Zookeeper与Hadoop集群的启动的不同点
JPS: ( Java Process Status)jps查看的是 后台所启动的 java 进程,hadoop,zookeeper 底层都是java实现的,所以jps可以查看其启动的情况,在对应的进程下,jps QuorumPeerMain NameNode SecondaryNameNode DataNode NodeManager ResourceManagerZookeeper得每一个节点都启动服务,Hadoop只用在master上启动,master会带着slave启动。.原创 2021-04-25 11:43:32 · 400 阅读 · 0 评论 -
hadoop集群启动
master上配置的 namenode, slave1上配置的 resourcemanager, slave2上配置的 secondarynamenodemaster : start-dfs.shslave1 : start-yarn.sh问题:显示50010 端口被占用, root 和 hadoop 用户登录 ,jps查看 显示的内容不一样, 关闭集群后重启集群FATAL org.apache.hadoop....原创 2021-05-03 19:54:15 · 147 阅读 · 0 评论 -
HDFS中文件的存储位置
小文件 <128MB 一个 blk 即可大文件 根据文件的大小,得分成多个块,每个块有其blk_id原创 2021-05-05 21:57:20 · 488 阅读 · 0 评论 -
Hadoop_basic
Ubuntu 14.04 64位Ubuntu 16.04 64位Hadoop 2.6.0 Hadoop 2.7.1实践前提:熟悉linux环境,基本命令,如果不熟悉linux命令,配置起来很费力Hadoop安装包 hadoop-2.7.1.tar.gzUbuntu 14.04 64 位 作为系统环境Hadoop 2.7.1 版本确保系统处于联网状态下本教程使用Ubuntu 14.04 64位作为系统环境(Ubuntu 12.04,Ubuntu16.0...原创 2021-03-27 01:44:47 · 137 阅读 · 0 评论 -
vmware虚拟机克隆CentOS7 出现的网络问题与解决办法
原因: 克隆的主机是 设置的静态ip,克隆后导致 主机和副机 有些地方的配置一样,vmware下出现了bug。克隆后首先修改mac地址,主机名,一定先要将网络配置成 dhcp动态获取ip,然后再修改为静态ip,这样可以避免许多不必要的麻烦/etc/sysconfig/network-scripts/ifcfg-eno 删除UUID与MAC(HWADDR),让 系统去自动获取最新的ifconfig没有ens33原因:NetworkManager 与 shell 有些冲突解决:shell .原创 2021-05-13 20:21:31 · 433 阅读 · 0 评论 -
hdfs的默认缓存路径
namenode 和 datanode 的 默认缓存路径在 core-site.xml 中 所配置的 hadoop.tmp.dir 中原创 2021-05-03 17:00:06 · 268 阅读 · 0 评论 -
单节点启动与集群化启动
bin/hadoop namenode -formatbin/hdfs dfs -putbin/hdfs dfs -getsbin/hadoop-daemon.sh start/stop namenode/datanodesbin/yarn-daemon.sh start/stop resourcemanager/nodemanagersbin/start-dfs.shsbin/stop-dfs.shsbin/start-yarn.shsbin/stop-yarn.s.原创 2021-05-03 20:02:30 · 243 阅读 · 0 评论 -
Zookeeper配置 Client port found: 2181. Client address: localhost. Client SSL: false. Error contacting
问题:原因:1.从清华镜像下载的是相对较高版本的targz包,但是下错了,应该下载的是 bin包2.zookeeper依赖于java,用的时候会自动找JAVA_HOME,所以在配置zookeeper前,一定要配置好java环境3.tomcat 和 zook 使用的端口冲突 , netstsat -ant 查看端口4.防火墙没有关 systemctl stop firewalld5.zoo.cfg配置文件 节点ip的域名输入有误6.一切修改好后,一定要重启zookeeper服.原创 2021-04-21 17:17:12 · 23993 阅读 · 3 评论 -
Hadoop基础知识1
并行编程模型 mapreduce map/reduce HDFS hadoop distributed file system第一周第二次作业1、什么是云计算,它提供了哪几种服务模式? 云计算是分布式计算的一种,指通过网络云将巨大的数据计算处理程序分解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。基础设施即服务 Iaas 平台即服务 Paas 软件即服务 Saas云分类:公有云,私有云,混合云2、云计算的...原创 2020-06-05 17:25:37 · 1863 阅读 · 0 评论 -
yarn的8088 GUI界面 看 mapreduce 任务
master:8088 为yarn的界面当进入页面失败,一般都是 相关的服务没有启动的原因yarn的启动一定要在 hdfs的启动之后,mapreduce一定得在配置文件中设置为 yarn 来 管理原创 2021-04-30 12:34:41 · 680 阅读 · 0 评论 -
Yarn工作流程
FIFO调度:容量调度器:公平调度器:一台机子就可能并发跑多个程序,对电脑的性能要求相对较高翻译 2021-05-31 20:37:23 · 107 阅读 · 0 评论 -
Yarn
#include <stack>#include <set>#include <map>#include <queue>#include <string>#include <iostream>#include <stdio.h>#include <string.h>#include <algorithm>#include <math.h>using namespace.翻译 2021-05-31 21:14:30 · 78 阅读 · 0 评论 -
/etc/profile 导入 变量的规范化写法
这样写很细节,简直美得不行原创 2021-04-27 17:12:53 · 140 阅读 · 0 评论 -
HDFS概述
重点:hdfs dfs -tailhdfs dfs -getmergehdfs dfs -setrephdfs dfs -appendToFile-appendToFile:追加一个文件到已经存在的文件末尾-chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限-getmerge:合并下载多个文件,比如HDFS的目录 /user/atguigu/test下有多个文件:log.1, log.2,log.3,...-t...原创 2021-05-07 15:23:32 · 121 阅读 · 0 评论 -
CentOS7重启后突然连接不上了
重启虚拟机后,XShell连接不上虚拟机了,netstat -ant 发现 22 号端口没有开启XSehll 通过 ssh 协议 远程登录 虚拟机的,用的是 port 22 所以 一定得开启 端口原创 2021-04-25 10:43:43 · 519 阅读 · 0 评论 -
HDFS查看文件的两种方式
why?文件小:下载下来看可以文件大:最好终端在线观看1.localhost:50070 图形化界面 离线查看可以查看hdfs文件目录的结构,副本数,block大小,文件的大小,但是不能查看文件的内容,要是查看文件的内容的话,得把文件给下载下来2.通过命令行终端实现在线查看文件内容...原创 2021-04-29 18:07:16 · 13172 阅读 · 0 评论 -
HDFS图解
速度上的考虑,安全上的考虑 :翻译 2021-05-08 10:49:09 · 281 阅读 · 0 评论