hadoop
伙伴几时见
致力于成为一名数据科学家
展开
-
hadoop文件复制命令
hadoop内置的distcp命令,采用map -reduce的方式对文件进行复制,对于大数据文件夹的复制,特别是文件夹的嵌套式很有效的。 不需要我们手工指定底层文件夹,即可完成复制。并且复制的结果文件与源文件文件名相同,不会出现part-*的文件的情况。 但是对于小数据文件,推荐使用hadoop内置的fs -cp命令,当hadoop比较拥挤的时候,启动一个map -redu转载 2016-09-13 21:46:10 · 6434 阅读 · 0 评论 -
Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run wi
总而言之,一句话,设置环境变量:PYSPARK_PYTHON = /home/piting/ENV/anaconda3/bin/pythonos.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON有时如果你使用的是虚拟环境或者anaconda,不能直接设置export PYSPARK_PYTHON=python3,这样可能直接指向的是系统全局的设置原创 2016-09-14 15:01:51 · 5608 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到co转载 2016-09-25 17:52:41 · 347 阅读 · 0 评论 -
集群上如何跑pyspark程序--Running Spark Python Applications
Running Spark Python ApplicationsAccessing Spark with Java and Scala offers many advantages: platform independence by running inside the JVM, self-contained packaging of code and its dependenc翻译 2016-09-28 10:48:25 · 4331 阅读 · 0 评论 -
centos6.8安装jdk1.7
1.先看看OpenJDK的安装包$ rpm -qa |grep javatzdata-java-2013b-1.el6.noarchjava-1.6.0-openjdk-1.6.0.0-1.61.1.11.11.el6_4.x86_64java-1.7.0-openjdk-1.7.0.19-2.3.9.1.el6_4.x86_642.检查OpenJDK版本$ java -v转载 2016-10-16 19:37:00 · 461 阅读 · 0 评论 -
pyspark在windows加载数据集训练模型出现 以下错误 Connection reset by peer: socket write error
As a workaround you might try the following change to python/pyspark/worker.pyAdd the following 2 lines to the end of the process function defined inside the main functionfor obj in iterator: ...翻译 2019-05-27 13:53:28 · 769 阅读 · 2 评论