- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 使用IO流操作HDFS
除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO流进行操作的。 1. 把本地的文件上传到HDFS @Test public void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException...
2020-04-03 16:16:35 512
原创 HDFS 配置本地客户端
之前,一直通过Linux命令操作HDFS。接下来,在本地配置HDFS客户端,通过编写代码操作HDFS。 环境: mbp2018 hadoop-2.7.7 配置步骤 1. 在本地解压hadoop-2.7.7.tar.gz,并配置环境变量。在终端输入$ hadoop测试是否安装成功。 2. 在IDEA中建立一个空的mavean工程。 File new Projects ...
2020-04-03 16:07:24 603
原创 HDFS
HDFS(Hadoop Distributed File System),是一个文件系统,用于存储文件,通过目录树来定位文件,其实,它是分布式的,联合多台服务器实现功能。HDFS容错性高,适合处理大数据。 使用场景: 适合一次写入,多次读出的场景; 不支持文件的修改; 适合于用来做数据分析,不适合用过来做网盘。 缺点: 不适合低延时数据访问 无法高效的对大量小文件进行存储; ...
2020-04-03 14:33:06 169
原创 集群时间同步
步骤 1. 检查ntp(网络时间协议)是否安装。 ps -e | grep ntp 如果出现一下内容表明一斤安装: 如果什么都没有,可以使用sudo apt-get install ntp进行安装。 2. 修改ntp配置文件 打开配置文件:sudo vim /etc/ntp.conf 2.1 授权集群中的机器可以访问这台机器的时间 2.2 集群在局域网中...
2020-04-02 13:45:42 306
原创 VMware搭建完全分布式Hadoop集群
实际开发中,使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机(3台以上),用于完成各种任务。但是个人在学习时,购买多个机器显然是不划算的。这里,我们采用VMWare克隆出多个虚拟机来模仿完全分布式环境。 环境: VMware Fusion 11 pro Linux系统为Ubuntu 16.04 每个虚拟机的配置为1G内存和20G磁盘空间 PC:mbp201...
2020-04-01 14:29:09 1358
原创 配置日志聚集
所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。 开启日志聚集,需要重启NodeManager、ResourceManager和HistoryManager。 开启步骤 1. 配置yarn-site.xml文件 <!-- 开启日志聚集功能 --> <property> ...
2020-04-01 11:05:16 266
WordCountMapReduce.zip
2020-05-24
python机器学习实战
2017-09-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人