Hadoop\Spark 学习
herr_kun
喜欢有趣的新方向,涉猎广泛,方向专一
展开
-
白话Hadoop入门-十分友好的入门(安装+配置+第一个详解例程)
1、Hadoop介绍 Hadoop主要是一个分布式基础架构,用户可以不用了解详细分布式的底层细节实现,只需要编写简单的逻辑程序,便可以实现分布式计算。其大致可以分为三部分:HDFS文件集群、MapReduce数据处理、yarn资源调度集群。HDFS文件集群:负责文件如何保存读取,例如如何将一个文件分为block,分别存在哪些计算机中?以及读取的时候如何根据namenode的信息在...原创 2018-09-29 21:21:38 · 490 阅读 · 0 评论 -
Hadoop程序运行中 “没有权限读写文件”
问题:在hdfs与本地文件系统进行文件读写的时候显示权限不够解决:1、hdfs中的文件权限不够 查看hdfs文件权限,通过 hadoop fs -chmod 777 XXXX 进行权限的修改2、本地(Linux)文件权限不够 查看并修改权限,同样使用chmod命令3、对hdfs进行文件写入时,显示权限不够 (1)、参照第一种方法便可...原创 2018-09-30 12:04:00 · 3647 阅读 · 0 评论 -
白话Hadoop入门-WordCount详细讲解(2)
前一篇博客讲述了如何进行Hadoop坏境的搭建,以及第一个传输文件程序的编写,通过第一个文件可能大概对Hadoop有一个了解了,但是Hadoop的精髓在于mapreduce,下面我们就来看看如何编写Hadoop的第一个“hello world”程序--也就是WordCount程序。 有很多的博客讲述Wordcount是什么,但是没有对里面的代码进行详细讲解,导致很多的入门者卡在...原创 2018-10-10 15:00:59 · 1334 阅读 · 0 评论 -
pyhton+spark 2.0+hadoop机器学习与大数据实战 Ubuntu16参考及问题纠正
前言:我装的 Linux Ubuntu 16 版本的,但是书上配置的是Ubuntu 14版本的,所以相关的配置需要进行更新1、网络的配置 也就是书上配置eth0 eth1,但是在Ubuntu16版本中不再这么叫了,而是进行了改进,变成了enp0s3 enp0s8,所以要改成这个名字,否则无法进行正确的网址的配置2、ssh免密登录的配置 此处一开始是在Hadoop上进...原创 2018-12-09 11:32:28 · 309 阅读 · 1 评论 -
python+spark 2.0+hadoop 机器学习与大数据实战 第八章代码
8.7 HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-mode clienttextfile=sc.textFile("hdfs://master:9000/user/hduser/wordcount/input/LICENSE.txt")textfile.count()exit...原创 2018-12-10 15:48:55 · 1242 阅读 · 1 评论 -
看了这个Hadoop和大数据你就懂了一半了
1、多台服务器是怎么通讯的,网络间的配置 这里以设置虚拟机为例,虚拟机需要设置两个网卡,第一个网卡设置为“NAT网卡”-enp0s3(Ubuntu16中的命名),主要是通过主机连接到外部互联网进行上网;另一个为“仅主机适配器(网卡)”-enp0s8,用于创建内部网络,通过该网络实现同一网段下不同的机器进行相互登录通讯等操作。(其中第二个网卡的地址需要自己手动设置) 然后在m...原创 2018-12-24 16:19:31 · 497 阅读 · 0 评论 -
python+spark 2.0+hadoop 机器学习与大数据实战 第十一章部分代码
wordcount.py代码from pyspark import SparkContextfrom pyspark import SparkConfimport sysdef SetLogger( sc ): logger = sc._jvm.org.apache.log4j logger.LogManager.getLogger("org"). setLevel( ...原创 2018-12-24 16:40:44 · 1007 阅读 · 0 评论 -
感受下在spark上构建一个项目的简单性
其实在spark上构建一个项目是一个很简单的事情,比较繁琐的是环境的搭建。spark上实现一个项目就和实现一个普通的非分布式的项目一样,下面用两个例子来说明:1、Wordcount程序(spark和Hadoop对比)(1)Hadoop比较繁琐,需要写一个map程序,实现单词的切分,以及进行发送出去(也就是写到磁盘的过程),然后你还要写一个reduce程序,将相同的单词进行计数累加,最后...原创 2018-12-24 17:11:19 · 403 阅读 · 0 评论