大数据
文章平均质量分 65
空了虾摸索
这个作者很懒,什么都没留下…
展开
-
Sqoop 将db2数据导入到hive中出现数据条数不一致问题分析
import--connectjdbc:db2://host:port/database //db2驱动--usernamexxx //用户名--passwordxxx //密码--tabledb2table //db2中的表名字--split-byid //分块建议使用主键column字段名称作为分割块的依据,这样减少导入误差--m16 //1-更大 速度主要...原创 2018-05-17 16:39:36 · 1429 阅读 · 0 评论 -
本地搭建hadoop集群--sqoop的安装.1.4.7 使用db2
安装1、解压tar包2、进入conf目录3、修改配置文件cp -a sqoop-env-template.sh sqoop-env.shvm sqoop-env.sh export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.6export HADDOP_MAPRED_HOME=//opt/module/hadoop-2.7.6...原创 2018-07-30 15:35:24 · 837 阅读 · 0 评论 -
本地搭建hadoop集群--kylin的安装(集群部署)
kylin官方安装文档http://kylin.apache.org/cn/docs/install/configuration.html总结:1、关于麒麟高可用涉及负载均衡官网都说超出范围了,安装只考虑安装的事情,其余的先忽略2、kylin在启动的时候会自动检测你本地hadoop,hbase,hive,spark,kafka 的环境变量。配置路径3、逐一安装不像CDH或者HD...原创 2018-08-24 17:47:07 · 3917 阅读 · 0 评论 -
hive中 order by ,distribute by ,cluster by ,sort by 区别
id name old 1 张三 10 1 李四 15 3 王五 20 4 赵六 25 假设表中3个字段order by old 展现出的数据将会根据old 这一列降序返回4条记录,不具备任何形式的数据分布select * from table order by old desc4 赵 25...原创 2018-09-18 17:51:46 · 142 阅读 · 0 评论 -
如何删除.hive-staging文件
修改hive/conf目录下hive-site.xml配置文件找到<name>hive.exec.stagingdir</name>将value值修改到一个指定目录方便后期删除<value>/tmp/staging/.staging</value>保存分发配置后面所有的.hive-staging数据均在上面的目录下写一个cro...原创 2018-09-26 15:10:22 · 2080 阅读 · 0 评论 -
kylin报错解决方案
1、#4 Step Name: Build Dimension Dictionary报错:java.lang.IllegalStateException: The table: tableName Dup key found, key=[xxx], value1=*], value2=[***] at org.apache.kylin.dict.lookup.LookupTable.in...原创 2018-10-29 11:10:56 · 1343 阅读 · 0 评论 -
windows10下安装mysql-8.0.11-winx64
mysql 官网上下载mysql-8.0.11-winx64安装包解压创建my.ini文件把以下内容复制进去保存[mysql]# 设置mysql客户端默认字符集default-character-set=utf8[mysqld]# 设置3306端口port = 3306# 设置mysql的安装目录basedir= E:\develop\mysql\mysql...原创 2018-12-03 14:19:52 · 855 阅读 · 0 评论 -
vmware安装centos7.2
镜像自行准备2、选择默认3、软件选择,选择下图4、选择我要配置分区5、手动分区,分/boot / 和 swp分区共计3个6、网络随便选,进去以后在linux里在单独配置最后一步设置密码...原创 2019-04-23 16:34:50 · 234 阅读 · 0 评论 -
Elasticsearch+centos7.2 使用ip:9200访问解决方案
1、从官网上下载tar包2、解压缩 tar -zxvf xxx.tar /opt/modules3、编辑 vim/opt/modules/elasticsearch-6.4.2/config/elasticsearch.yml4、找到如下配置第一步,取消下面两个注释,冒号后一定要有空格,否则启动报错,将IP地址设置成本地的机器地址第二部,保存退出5、进入bin目录 ...原创 2019-04-24 17:13:49 · 2170 阅读 · 0 评论 -
本地搭建hadoop集群--hbase和zookeeper的安装
zookeeper的安装1、解压tar包2、修改配置文件cd confcp -a zoo_sample.cfg zoo.cfgvim zoo.cfg配置 dataDir=/opt/module/zookeeper-3.4.12/data以及在文本的最后粘贴server.1=master:2888:3888server.2=slave1:2888:3888ser...原创 2018-07-30 15:14:41 · 470 阅读 · 0 评论 -
本地搭建hadoop集群--hive安装2.3.3
2.3.3和2以下的安装区别就是 如下波浪线需要在执行hive之前 进入 bin目录schematool -dbType derby -initSchema这里可以用mysql 。derby都行。 具体支持哪些jdbc 作为元数据底层 这个就不晓得了。目前用的最多的是 mysql这里我就省略了。下面说到了 多用户操作 建议使用mysql数据库。derby不行。 第一步解压...原创 2018-07-20 18:07:47 · 710 阅读 · 0 评论 -
本地搭建hadoop集群-hive多节点访问(hive2.3.3)
一、思路1.安装hadoop集群。我这里使用的是自己编译的2.7.62.元数据使用mysql作为技术支撑3.配置hive参数分发至各个节点4.hive服务端启动5.各个节点hive客户端访问 二、mysql的安装rpm -q mysql-server //检查是否安装mysqlyum install -y mysql-server //yum安装servic...原创 2018-07-25 16:05:58 · 3173 阅读 · 0 评论 -
Hadoop-MapReduce粗略理解(一)
本文不做任何商业用途,仅仅用于知识分享。如有侵权行为,请联系我谢谢。通过阅读书籍查阅相关资料总结得出本人片面理解:map 相当于数据准备阶段,主要负责从HDFS中读取分块,因为每个分块的大小近乎相等,所以通过集群调度任务将数据采集到map中。实现读取效率最大化reduce。处理各个节点上map的值(利用网络传输)传输到reduce节点。由reduce 完成 聚合,排序等一系列处理。最终写入hdfs...翻译 2018-05-15 10:04:28 · 154 阅读 · 0 评论 -
vmware12安装centos6.8菜鸟版,有图
好记性不如烂笔头,整理一下,网上程序详细写的好的太多了。what's more 害怕忘记。1、得有电脑2、得安装好windows系统3、得安装好vmware工具。版本其实无所谓4、使用管理员模式打开vmware下一步下一步选择稍后安装操作系统,下一步选择 版本 ,根据自己得实际下载情况选择。下一步输入名称 选择位置。名称就是左上角得后面会显示得名称。位置建议不要放在C盘。下一步处理器数量根据自己配...原创 2018-06-22 15:56:07 · 1073 阅读 · 0 评论 -
本地搭建hadoop集群--hadoop2.7.6-src在linux上编译解决downloading过慢教程
第一步:工具的准备apache-ant-1.9.9-bin.tar.gzapache-maven-3.0.5-bin.tar.gzhadoop-2.7.6-src.tar.gzjdk1.7 就好别用1.8 据说 用1.8 maven 编译 会报各种错。protobuf-2.5.0.tar.gz以上就是需要的所有 工具第二部:linux 可以连接外网。第三部:给 linux 虚拟机 至少分配 4g ...原创 2018-07-16 10:52:14 · 1109 阅读 · 0 评论 -
本地搭建hadoop集群-各种报错,不断更新
20180716:Unable to obtain hostNamejava.net.UnknownHostException: hadoop100: hadoop100解决方案:vi /etc/hosts 查看集群对应ip 名称192.168.77.100 master192.168.77.101 slave1192.168.77.102 slave2192.168.7...原创 2018-07-16 15:42:26 · 240 阅读 · 0 评论 -
本地搭建hadoop集群--设置ssh免登陆及免登原理
ssh免登就是 机器与机器之间通过密钥相互信任跳过登陆命令cd cd .ssh/ ssh-keygen -t rsa会生成两个密钥id_rsaid_rsa.pub顾名思义 一个是公钥 一个是私钥A与B 之间如何达成 互信呢?A首先将自己得公钥交给B>>A拿着私钥加密好的数据去访问B>>B去授权key集(authorize...原创 2018-07-17 15:09:01 · 199 阅读 · 0 评论 -
本地搭建hadoop集群--ntp同步集群时间
使用ntp对外提供服务器集群时间同步一般选择masterzu作为ntp服务器首先检查机器是否 安装ntprpm -qa|grep ntp如果安装则编辑文档如下操作 保存退出vim /etc/ntp.conf第一个圈 取消注释第二个圈全部注掉第三个自己加上去修改/etc/sysconfig/ntpd 文件vim /etc/sysconfig/n...原创 2018-07-18 15:29:57 · 660 阅读 · 0 评论 -
本地搭建hadoop集群--hadoop集群部署
我的机器 master slave1 salve2 slave3 namenode datanode datanode datanode nodemanager nodemanager nodemanager resourcemanager secondarynamenode ec...原创 2018-07-18 18:01:22 · 403 阅读 · 0 评论 -
本地搭建hadoop集群--准备阶段 JDK安装
从网上下载 jdk1.8.0 linux版本 tag包将文件上传或者copy到/opt 目录下mkdir /opt/moduletar -zxvf 包名Tab补全 -C /opt/module 等待解压完成cd /opt/module/jdk1.8.0_131pwd 复制路劲root下 vi /etc/profile 或者 sudo vi /etc/profile最后一行配置环境变量#JAV...原创 2018-07-13 11:09:48 · 168 阅读 · 0 评论 -
记一次mongodb数据恢复过程--阿里云强制关机后导致mongodb启动失败
1、删除dbpath目录下的mongod.lock2、将data目录下所有文件授权给当前用户 root忽略, chown -R user:user3、清除log下目录4、./mongod --repair --dbpath /XXX/XXX 修复路径数据5、./mongod --config 路径 启动如果出现Failed to unlink socket...原创 2019-10-08 17:14:02 · 400 阅读 · 0 评论