2020年04月_Manfestain

05月 04月 03月 01月

原创使用IO流操作HDFS

除了可以使用系统API进行HDFS操作，还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作，其实API的底层也是使用IO流进行操作的。 1. 把本地的文件上传到HDFS @Test public void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException...

2020-04-03 16:16:35 512

原创 HDFS 配置本地客户端

之前，一直通过Linux命令操作HDFS。接下来，在本地配置HDFS客户端，通过编写代码操作HDFS。环境： mbp2018 hadoop-2.7.7 配置步骤 1. 在本地解压hadoop-2.7.7.tar.gz，并配置环境变量。在终端输入$ hadoop测试是否安装成功。 2. 在IDEA中建立一个空的mavean工程。 File new Projects ...

2020-04-03 16:07:24 603

原创 HDFS

HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过目录树来定位文件，其实，它是分布式的，联合多台服务器实现功能。HDFS容错性高，适合处理大数据。使用场景：适合一次写入，多次读出的场景；不支持文件的修改；适合于用来做数据分析，不适合用过来做网盘。缺点：不适合低延时数据访问无法高效的对大量小文件进行存储； ...

2020-04-03 14:33:06 169

原创集群时间同步

步骤 1. 检查ntp（网络时间协议）是否安装。 ps -e | grep ntp 如果出现一下内容表明一斤安装：如果什么都没有，可以使用sudo apt-get install ntp进行安装。 2. 修改ntp配置文件打开配置文件：sudo vim /etc/ntp.conf 2.1 授权集群中的机器可以访问这台机器的时间 2.2 集群在局域网中...

2020-04-02 13:45:42 306

原创 VMware搭建完全分布式Hadoop集群

实际开发中，使用的就是完全分布式环境。所谓完全分布式就是在整个集群中有真实的主机（3台以上），用于完成各种任务。但是个人在学习时，购买多个机器显然是不划算的。这里，我们采用VMWare克隆出多个虚拟机来模仿完全分布式环境。环境： VMware Fusion 11 pro Linux系统为Ubuntu 16.04 每个虚拟机的配置为1G内存和20G磁盘空间 PC：mbp201...

2020-04-01 14:29:09 1358

原创配置日志聚集

所谓日志聚集，就是指应用运行完以后，将程序的运行日志信息上传到HDFS系统上。日志聚集可以方便的查看程序的运行详情，方便开发调试。开启日志聚集，需要重启NodeManager、ResourceManager和HistoryManager。开启步骤 1. 配置yarn-site.xml文件  <property> ...

2020-04-01 11:05:16 266

WordCountMapReduce.zip

内容为MapReduce的一些代码实践，包括： 1 自定义的FileInputFormat的实现代码； 2 自定义的Partition分区示例代码； 3 自定义的排序代码实例。

2020-05-24

python机器学习实战

机器学习实战》主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

2017-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用IO流操作HDFS