大数据
李大海的幸福生活
这个作者很懒,什么都没留下…
展开
-
2020-08-18 删库跑路
一、背景:41-44 4台服务器安装了 CDH645-48 4台服务器Apache Hadoop 非HA模式,已能运行hive,并展示数据计划:将41-48合成一个大的大数据集群二、步骤:所有服务器互相免密登录45-48 安装clouder daemon 和agent 文件CDH 添加主机三、问题:免密登录设置后我想重启服务器,不知为何总是不识别hostname,1 重启后41-44 无法出现CDH home index,查看日志后发现是mysql 连接不上,解决:猜测是my原创 2020-08-19 10:38:10 · 203 阅读 · 0 评论 -
2020-08-12 学习 postman的使用
下载软件:https://www.postman.com/postman/一、如何发起一个请求?1.首先找目标url的接口文档说明 www.tainqiapi.com 找到文档接口说明2.在postman中书写并发送请求 填写的参数会拼接到url 后面 https://www.tianqiapi.com/api/ ? 表示后面跟的都是参数返回数据说明body 接口请求参数填写的不同方式。二、为甚做接口测试?接口间原创 2020-08-12 14:00:04 · 314 阅读 · 0 评论 -
2020-08-07 今日份的hivesql
今日hql case when 和 replace在查数据过程中,position_cn 有为空的情况,仔细查过后发现这个空 可能是null,可能是空格,这就体现了数据的复杂性,在实际处理的时候要注意看数据到底有多少种情况。select hash_cerno,pripid,casewhen position_cn is null then ‘“任职”’ – 如果为null就默认成“任职”when position_cn=’ ’ then ‘“任职”’ – 如果为空格就默认成原创 2020-08-07 16:47:50 · 120 阅读 · 1 评论 -
Neo4j linux 安装、运行、导入数据、展示结果
linux 安装 NEO4J只遇到一个问题,java1.8版本过低,重新下载一个java11,并修改 /etc/profile 环境变量这样就安装成功了。准备数据运行、导入数据和展示结果是在一起的数据格式严格按照 A,B,relation 其余的有其他字段也没有关系创造节点、关系 (多类节点和关系就直接在后面 --nodes --relation 就可以)./bin/neo4j-admin import --database=saic.db原创 2020-08-07 16:37:12 · 533 阅读 · 0 评论 -
Kettle 抽取导出hive 数据 到 文本文件问题——分隔符
Kettle 抽取导出hive 数据 到 文本文件问题——分隔符表输入中遇到两个问题,1是 字段太长,无法识别,需要转换成String2是 中文内容中有英文逗号,我选择英文逗号作为分隔符后导致不该被分割的内容被切开所有需要注意的地方都用红框框了出来注意kettle date类型导出来是2019/07/28 这种分隔符 所以要在文本文件输出指定格式并且注意 更改原来自带的Timestamp 为Date 格式,否则hive映射会失败,显示NULL最后说说今天学到的东西本来觉得时原创 2020-07-29 16:03:50 · 1592 阅读 · 0 评论 -
kettle 输入输出数据表输入 文本文件输出
0728 导入导出数据流程记录***以 e_baseinfo为例1.检查数据库 该表是否可见可查2.检查该表 时间类型的字段格式并记录3.创建kettle转换 表输入—> 文本文件输出4.执行转换5.上传文本文件到 linux 环境下6.上传linux数据文件到hdfs文件系统7.Hive中建表映射8.检查映射结果是否符合注意:以下坑都踩得结结实实一、时间类型的处理方式:1.因为kettle date类型默认格式是 2020/07/28 15:25:30斜杠无法被hive识原创 2020-07-28 18:28:25 · 2025 阅读 · 0 评论 -
Python 连接 Hive
Python 连接 Hive 过程中遇到很多问题,各种不识别包,impyla 等安装不上的问题最后怎么解决的呢?卸载 所有软件,按照步骤 安装 anaconda python pycharm安装 pure-saslpip install pure-sasl安装 thrift_saslpip install thrift_sasl==0.2.1 --no-deps安装thriftpip install thrift_sasl==0.2.1 --no-deps安装最终的:impylap原创 2020-07-22 16:05:37 · 221 阅读 · 0 评论 -
Python 连接 Hive ,查询数据后,导出到csv文件
Python 连接 Hive ,查询数据后,导出到csv文件导包from impala.dbapi import connectimport osimport reimport csvimport time,datetimeimport pandas as pd开始时间start = datetime.datetime.now()print(“开始时间:” + time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time.time())))原创 2020-07-22 16:00:20 · 1586 阅读 · 0 评论 -
Date Calendar 日期字符串 和 毫秒值的相互转化 总结
package com.sxt.test;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;public class MyTest { public static void main(String[] ...原创 2020-01-16 22:36:36 · 1436 阅读 · 0 评论 -
Mapreduce WordCount 报错
configuration.set(“mapreduce.framework.name”, “local”);没写这个 没写这个 没写这个原创 2020-01-14 09:05:17 · 132 阅读 · 0 评论 -
idea 快捷键
原文:花开白 https://blog.csdn.net/u010548207/article/details/103044647F5 复制文件,F6 移动文件,Ctrl+Shift+C 复制全路径 Ctrl + Alt + insert 新建Ctrl + Shift + V 弹出剪切板,选择对应数字就可以直接粘贴Ctrl + F12查看类的大纲(m是方法、f是属性)Alt + 7 ...原创 2020-01-11 20:28:24 · 204 阅读 · 0 评论 -
linux 文件安装位置分配
原文:https://www.w3h5.com/post/336.html我们应该知道 Windows 有一个默认的安装目录专门用来安装软件。Linux 的软件安装目录也应该是有讲究的,遵循这一点,对后期的管理和维护也是有帮助的。/usr 系统级的目录,可以理解为 C:/Windows/ , /usr/lib 可理解为 C:/Windows/System32 。/usr/local 用户级的...原创 2020-01-11 20:17:31 · 593 阅读 · 0 评论 -
从别人删库中学会trash 不碰 rmr
转帖来自:http://www.tech126.com/hadoop-rmr-trash/操作Hadoop集群时,由于一个误操作,制作了一个天大的悲剧不小心把Hadoop集群上的所有文件全部删除了,具体情况是这样的:我用hadoop的超级帐户要建立一个目录,结果发现位置错了也是,想使用rmr删掉那个目录,可是不小心把命令写成了hadoop fs -rmr /user于是,悲剧出现了,所...原创 2020-01-11 20:05:11 · 334 阅读 · 0 评论 -
我经常用到的linux指令
常用的指令rpm指令rpm -e 包名 卸载该包rpm -e --nodeps 包名 忽视依赖 强制卸载该包rpm -i + 包名 安装该包2.rpm -qa | grep mysql 查找展示 含有mysql的包挂载指令:检查挂载: ls /mnt挂载光盘镜像文件: mount /dev/cdrom/ /mnt解除挂载 : ...原创 2020-01-11 19:53:47 · 286 阅读 · 0 评论 -
hbase 表的设计问题
表设计表的设计:冗余,hbase中的表设计 要参照 emp中 员工id和上级id两列数据。用户表角色表多对多关系。用户增加一个,角色可能增加多个,角色增加一个,可能有多个用户兼任。用户表中后面的列族包含角色信息角色表中后面的列族包含用户信息虽然繁琐,但Hbase不能有行间事务,所以需要把相关的数据信息整到一行中去。...原创 2020-01-11 19:15:38 · 157 阅读 · 0 评论 -
hive mysql中 的mysql拒绝连接问题
node1 安装设置了 hiveservernode3 安装设置了 hiveclinode4 安装设置了 mysqlnode3 连接 node1 node1 连接 node4启动 node1的 hiveserver 连接 node4的mysqlhive --service metastore 或者在安装目录 的bin下 直接 hive(注意安装hive后 vim /etc/prof...原创 2020-01-10 18:28:45 · 1508 阅读 · 0 评论 -
LVS ip 漂移
怎么理解 LVS ip漂移?看上图,为了换地方上网不总手动输入IP设置两个,换地换网线的时候自动切换LVS 负载均衡,一个可能会挂,设置两个 LVSlvs后面跟着nginx集群怎么保证lvs正常工作呢IP漂移。。。。。。。。。...原创 2020-01-10 10:58:53 · 693 阅读 · 0 评论 -
安装mysql--server总出问题怒总结
想通过 yum 安装 镜像文件中的msyql先实现挂载ls /mntmount /dev/cdrom /mntcd /etc/yum.repos.d/cp CentOS-Base.repo localRepo.repomkdir oldmv CentOS-* old 做备份将原来的文件备份到一个位置vim localRepo.repo[ba...原创 2020-01-10 10:34:32 · 170 阅读 · 0 评论 -
xshell突然连不上linux虚拟机了
xshell突然连不上linux虚拟机了八成是虚拟网出问题了如果发现IPV4的内容变了,跟虚拟机 虚拟网络编辑器中的就要先点击还原默认设置原创 2020-01-08 19:07:14 · 815 阅读 · 1 评论 -
分桶抽样查询的解释
分桶创建表时 + clustered by (id) into 4 buckets 根据id分成4个桶查询时抽样 select * from tbname tablesample (bucket 1 out of 4 on id);create table tb_user2(id int,name string,likes array,addrs map<stri...原创 2020-01-06 21:51:26 · 977 阅读 · 0 评论 -
hive分区
hive创建表:create table bucket(id int,name string,sex string)partitioned by (age int,male string)row formatdelimitedfields terminated by “,”collection items terminated by “-”map keys terminate...原创 2020-01-06 20:49:23 · 146 阅读 · 0 评论 -
sql语句中什么时候先+table再+tbname(表名) 什么时候直接 +tbname(表名)
最近被sql语句中什么时候先+table再+tbname,什么时候直接 +tbname(表名) 搞到疯掉来个实验create table tbuser(id int ,name string)row format delimitedfields terminated by ‘,’collection items terminated by ‘-’map keys terminate...原创 2020-01-06 19:56:36 · 983 阅读 · 0 评论