大数据
hotdust
想成为一名JAVA方向的专家,做更多更好的基于JAVA的软件。
展开
-
Hadoop wordcount程序说明
前言 对于一个刚刚接触Hadoop的人来说,在看word count程序时,不知道Hadoop API和类型的意思,下面的文章可以让你快速了解wordcount程序中,用到的一些知识点。原创 2017-01-04 16:17:47 · 324 阅读 · 0 评论 -
配置Hadoop客户端
如果想在本机使用Hadoop命令,去操作远程Hadoop环境的话,需要修改etc/hadoop/core-site.xml文件,配置下面的项目:<configuration> <property> <name>fs.default.name</name> <value>hdfs://remote-namenode:por原创 2017-03-24 11:13:24 · 950 阅读 · 0 评论 -
使用Idea提交Spark程序
参考这个文章(使用Intellij IDEA开发并提交Spark应用到远程Spark集群)试了一下,把遇到问题记录一下。1,错误:Permission denied: user=root, access=WRITE, inode=”/user”:hdfs:supergroup:dr这个问题的原因是因为Idea在执行程序时,使用了系统用户作为向Hadoop进行写的用户了。比如,你的电脑系统用户是:ad原创 2017-03-12 22:53:17 · 4737 阅读 · 1 评论 -
Spark Client部署
参考文章(【Spark】Spark的Standalone模式安装部署)进行Spark Client部署时,要注意一点: 如果你在spark-env.sh里设置了JAVA_HOME的话,需要在把spark文件夹拷贝到本地后,修改一下JAVA_HOME,改成你本机的相对应的JAVA_HOME。原创 2017-03-12 11:49:21 · 1320 阅读 · 0 评论 -
配置Spark standalone集群启动
前言 想在本地提交spark程序,在网上找了一些文章。在本地提交的前提就是,spark以集群的方式启动。于是想以简单的standalone方式启动,但在启动的时候遇到了一些问题,下面把过程和问题总结一下。正文前提:已经下载到spark到机器上(master和slave),并且已经配置好了SPARK_HOME(使用版本:spark-2.1.0-bin-hadoop2.7.tgz)已经安装了j原创 2017-03-12 01:51:19 · 5602 阅读 · 0 评论 -
Hadoop进行读写文件
1,如果要向远程Hadoop服务器进行“读写”的话,需要配置core-site.xml中的fs.defaultFS。例如:<property> <name>fs.defaultFS</name> <value>hdfs://hadoop-master:9000</value></property>2,下面的文章,是读写文件的一例子和详细解释: - 使用java api操作HD原创 2017-02-22 11:05:25 · 840 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
http://www.infoq.com/cn/articles/hadoop-storm-samza-spark-flink简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数转载 2017-01-16 17:00:34 · 451 阅读 · 0 评论 -
Spark资料总结
前言 最近看了一些关于Spark的资料,总结一下,为了以后再看或理解方便一点原创 2017-01-09 20:46:43 · 1259 阅读 · 0 评论 -
hadoop 完全分布式 下 datanode无法启动解决方法
解决这个问题的时候,自己使用的版本是2.7.3,下面的文章中的版本应该是2.0以前的版本,但也好用。使用的是下面的这几步完成的:先执行stop-all.sh暂停所有服务将所有Salve节点上的tmp(即 hdfs-site.xml 中指定的 dfs.data.dir 文件夹,DataNode存放数据块的位置)、然后重新建立tmp文件夹将所有Salve节点上的/usr/hadoop/conf下的原创 2017-01-01 00:37:01 · 495 阅读 · 0 评论 -
问题以及解决办法:hadoop 不在 sudoers 文件中。此事将被报告
http://blog.csdn.net/jiangshouzhuang/article/details/52517734问题来源: 我们使用sudo命令,让Hadoop用户使用root身份执行命令时报错: [hadoop@mydocker ~]$ sudo date [sudo] password for hadoop: hadoop 不在 sudoers 文件中。此事将被报告。可以看到转载 2017-01-08 21:45:25 · 10607 阅读 · 0 评论 -
Hadoop环境配置教程总结
前言 记录一下学习搭建Hadoop环境时看的一些文章原创 2017-01-03 10:27:55 · 692 阅读 · 0 评论 -
[bigdata]小象幫幫忙,Hadoop 能幫什麼忙?
https://dotblogs.com.tw/rickyteng/2012/12/11/85556[bigdata]小象幫幫忙,Hadoop 能幫什麼忙?Hadoop 文獻探討微軟巨量資料策略轉向,全面支援Hadoophttp://www.ithome.com.tw/itadm/article.php?c=77576微軟表示转载 2016-12-28 10:43:39 · 346 阅读 · 0 评论 -
解读Secondary NameNode的功能
http://www.cnblogs.com/smartloli/p/4342340.html1.概述 最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当作备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我转载 2017-01-04 22:46:24 · 439 阅读 · 0 评论 -
关于DataSet和DataFrame
刚才开始看SparkSql,把看过程中的了解的东西行记下来1,关于类型方面:DataSet是带有类型的(typed),例:DataSet<Persono>。取得每条数据某个值时,使用类似person.getName()这样的API,可以保证类型安全。而DataFrame是无类型的,是以列名来作处理的,所以它的定义为DataSet<Row>。取得每条数据某个值时,可能要使用row.getStrin原创 2017-04-11 17:22:27 · 4902 阅读 · 0 评论