大数据
reisang
这个作者很懒,什么都没留下…
展开
-
hive安装
1. Hive的安装 系统环境 装好hadoop的环境后,我们可以把Hive装在namenode机器上(NameNode-82)。 下载: hive-0.9.0.tar.gz 解压到: /home/hadoop/hive hive配置 [root@NameNode-82 ~]# cd /home/hadoop/hive/conf [root@NameNode-原创 2015-07-27 16:42:14 · 537 阅读 · 0 评论 -
Mac报错:Error: The following directories are not writable by your user: /usr/local/share/man/man8
解决方案 sudo chown -R `whoami`:admin /usr/local/bin sudo chown -R `whoami`:admin /usr/local/share原创 2019-07-12 21:03:57 · 455 阅读 · 0 评论 -
bigflow 在centos7下的使用
编译步骤:root权限顺畅些。 git clone https://github.com/baidu/bigflow.git cd bigflow/build_support sh build_deps.sh source ./environment mkdir -p ../build && cd ../build && cmake .. make make r...原创 2019-07-12 21:15:20 · 295 阅读 · 0 评论 -
spark安装
hadoop版本hadoop2.9.2 spark版本spark-2.3.3 conf/spark-env.sh export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.2/etc/hadoop export SPARK_MASTER_IP=localhost ...原创 2019-07-12 21:21:11 · 174 阅读 · 0 评论 -
datanode启动不来
日志原因java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-hadoop/dfs/data: namenode clusterID = CID-ff33b7bd-5743-4d92-9ab2-ed8855b0b46a; datanode clusterID = CID-f13855bb-a561-4675-bef5-2c9ef8...原创 2019-07-13 10:34:14 · 206 阅读 · 0 评论 -
hadoop streaming job cli模式
/home/hadoop/hadoop-2.9.2/bin/hadoop jar /home/hadoop/hadoop-2.9.2/share/hadoop/tools/lib/hadoop-streaming-2.9.2.jar -input /user/input/file.1 -output /user/output8 -mapper "python3 mapper.py" -redu...原创 2019-07-09 20:45:16 · 121 阅读 · 0 评论 -
ubuntu docker安装
1, 安装docker sudo install docker.io 2, 安装以下包以使apt可以通过HTTPS使用存储库(repository): sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common 3, 添加Docker官方的GPG密钥: curl -...原创 2019-07-04 19:45:01 · 116 阅读 · 0 评论 -
docker安装hadoop源码
下载hadoop源码包 https://hadoop.apache.org/releases.html 运行脚本原创 2019-07-04 20:03:27 · 143 阅读 · 0 评论 -
ubuntu设置root密码
打开终端输入:sudo passwd Password: <--- 输入你当前用户的密码 Enter new UNIX password: <--- 新的Root用户密码 Retype new UNIX password: <--- 重复新的Root用户密码 passwd:password updated successfully ...原创 2019-07-04 20:05:52 · 90 阅读 · 0 评论 -
mac安装docker
brew cask install docker docker --version原创 2019-07-05 10:47:00 · 316 阅读 · 0 评论 -
环境变量设置坏了怎么办
切换到root环境 /usr/bin/sudo -i 编辑对应的某用户目录下的~/.bashrc 删除掉出错的环境变量 source原创 2019-07-10 15:55:36 · 664 阅读 · 1 评论 -
mac安装hadoop
首先在终端输入:ssh localhost,如果终端有返回Last login: Mon Jul 8 16:33:56 2019 说明你之前成功配置了SSH keys,如果没有返回该内容,请按下述步骤新建一个配置: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/author...原创 2019-07-08 16:52:18 · 210 阅读 · 0 评论 -
Windows + IDEA + SBT 部署Spark源码阅读环境
Windows + IDEA + SBT 部署Spark源码阅读环境 Spark源码阅读环境的准备 Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。 本文介绍的是Windows下的各项配置方法(默认已经装了java,J转载 2015-12-01 11:01:56 · 430 阅读 · 0 评论 -
Hive 中如何使用符合数据结构 maps,array,structs
在Hive 中如何使用符合数据结构 maps,array,structs 1. Array的使用 创建数据库表,以array作为数据类型 create table person(name string,work_locations array) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t转载 2015-11-02 18:26:49 · 392 阅读 · 0 评论 -
hive数据操作
vi tb_hive.txt 12 34 56 7 12 13 41 2 31 17 21 3 71 2 31 1 12 34 11 2 34 [root@NameNode-82 hive_w]# hive shell 建原创 2015-07-27 17:21:35 · 723 阅读 · 0 评论 -
hive 数据操作(二)
1、创建数据库 hive> create database humam_resources; 或者 hive> create database IF NOT EXISTS financials; 2、查看数据库 hive> show databases; OK default financials 3、default是默认的数据库 创建的数据库存放的路径为配原创 2015-07-28 17:30:28 · 469 阅读 · 0 评论 -
Cannot delete .... . Name node is in safe mode
如何关闭安全模式呢? bin/hadoop dfsadmin -safemode leave 原因: 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期原创 2015-07-31 10:53:12 · 678 阅读 · 0 评论 -
hadoop常见操作命令
1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /user/wangkai.pt 2、打开某个已存在文件 hadoop dfs –cat [file_path] eg:hadoop dfs -cat /user/wangkai.pt原创 2015-08-13 09:01:06 · 510 阅读 · 0 评论 -
excel 补全所有空格
首先选中 A 列,按 F5 键,再按“定位条件„”按钮,选择空值,这样就把所 有空列选中了,但是光标停留的位置是 A3 格上; 然后直接输入“ =A2 ”,再按 Ctrl + 回车 首先全选中所有列,按F5键,再按“定位条件„”按钮,选择空值,这样就把所有空列选中了, 然后直接输入“你想要替换的值”,再按Ctrl + 回车原创 2015-08-14 16:22:42 · 1569 阅读 · 0 评论 -
hadoop基准测试
写测试hadoop jarhadoop-0.20.2-test.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 ----- TestDFSIO ----- : write Date & time: Fri Jul 24 14:24:36 CST 2015 Number of files: 10 Total原创 2015-07-24 16:44:58 · 733 阅读 · 0 评论 -
sqoop基本 操作
列出 hive的 所有库 sqoop list-databases --connect jdbc:mysql://localhost --username hive --password hive 列出所有的表 sqoop list-tables --connect jdbc:mysql://localhost/hive_metadata --username hive --passwo原创 2015-08-17 15:06:31 · 1132 阅读 · 0 评论 -
hive结合python
CREATE TABLE IF NOT EXISTS user(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; CREATE TABLE IF NOT EXISTS job(id int, position string, user_id int) ROW FORMAT DELIMITED FIEL原创 2015-11-04 11:37:33 · 609 阅读 · 0 评论 -
hive操作(三)
从本地导入到hive中 insert overwrite local directory '/home/source/load_local.txt' select * from t_hive2; 导hdfs文件到hive中 load data inpath '/user/hive/warehouse/t_hadoop/load_f.txt' overwrite into table t_hi原创 2015-10-14 17:22:41 · 341 阅读 · 0 评论 -
hive操作(四)
1、内部表 a、无分区load数据: load data inpath '/home/file' overwrite into table search_urls_outer 会将hadoop文件夹下的/home/file移到/user/hive/warehouse/search_urls_outer /file 当drop table search_urls_outer 时,远数原创 2015-10-23 18:36:28 · 323 阅读 · 0 评论 -
R 语言 Windows 环境 安装与Windows下制作R的package
1.1 预装的软件 (所有软件都可以在 http://www.biosino.org/R/R-doc/Rm/ 和 http://www.biosino.org/R/requiredSoftWares下载) 1.1.1 R 软件(R的官方下载:http://www.r-project.org/index.html;或者在我创建的一个本地非官方下载:http://www.bi转载 2015-12-10 10:22:24 · 1666 阅读 · 0 评论 -
hive递归子目录作为输入
在hive-cli中设置参数: set hive.mapred.supports.subdirectories=true; set mapreduce.input.fileinputformat.input.dir.recursive=true;原创 2015-11-24 14:05:35 · 3017 阅读 · 0 评论