大数据
文章平均质量分 55
语兴数据
语兴数据官方号
语兴简介:
语兴数据科技有限公司KOL、前大厂某线数据负责人
展开
-
Mac部署大数据学习环境(一)
查看网段和子网掩码。原创 2023-04-18 15:20:05 · 248 阅读 · 0 评论 -
过滤Sqoop脚本内容中库表并生成定表刷新元数据脚本
#!/bin/bash#description:for special table invalid metadata;function grep_databseAndTableName(){for file in $(ls *.sh) do grep -o 'database\s\+\w\+\s\+\-*\w*\-\+\w\+\s\+\w\+' $file>>metadata_$file done}grep_databseAndTableNameecho "done grep原创 2021-09-08 15:27:56 · 216 阅读 · 0 评论 -
Hue实现Hive2脚本传参调度
首先准备一个hql文件如 xxx.hql然后设置给定HQL脚本中的动态参数变量名给定动态参数名Schedule中使用Oozie系统变量进行指定参数值原创 2021-05-19 18:26:26 · 443 阅读 · 0 评论 -
Hive计算身份证年龄
year(from_unixtime(unix_timestamp(),"yyyy-MM-dd")) - year(to_date(from_unixtime(unix_timestamp(substr(usr_id_card,7,8),'yyyyMMdd'),'yyyy-MM-dd')))原创 2020-08-13 14:28:09 · 2763 阅读 · 0 评论 -
sqoop导出脚本范例
其中参数分别为jdbc链接用户名密码mysql表名hive指定的hdfs文件夹更新键:数据插入mysql中根据此键来进行变化 写成sql表示为:update *** set *** = ?? where contract_index=??update-mode:表示更新的类型 有两种 一种是允许插入,另一种是只做更新操作指定分隔符指定换行符最后指定map数即可完成sqoop导出其本质并不是导出Hive表而是导出Hdfs...原创 2020-08-13 14:23:30 · 278 阅读 · 0 评论 -
Flume+Kafka+Spark Stremming+HBase+Phoenix实现日志数据处理分析
版本环境:Hadoop:3.0 -CDH6.2.1Spark:2.4-CDH6.2.1HBase:2.1.0-CDH6.2.1Phoenix:5.0.0-cdh6.2.0.p0.1308267基本架构:为什么要记录用户访问行为日志?1.网站页面的访问量2.网站的黏性 用户使用web端或者App端的多次点击,链接点击用户行为日志内容:客户端模块 app ID跳转链接地...原创 2019-12-16 18:05:20 · 1034 阅读 · 0 评论 -
数据仓库简介
数据仓库构建数仓架构图:数据仓库的三个阶段:第一阶段:使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。第二阶段:使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求第三阶段: 自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理趋势: 工...原创 2019-12-16 17:48:53 · 237 阅读 · 0 评论 -
大数据技术之 --Apache Phoenix
简介Phoenix是一个在Hbase上面实现的基于Hadoop的OLTP技术,具有低延迟、事务性、可使用SQL、提供JDBC接口的特点。 而且Phoenix还提供了Hbase二级索引的解决方案,丰富了Hbase查询的多样性,继承了Hbase海量数据快速随机查询的特点。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBa...原创 2019-11-29 09:47:54 · 794 阅读 · 0 评论 -
Canal简介
简介Canal:译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据...原创 2019-11-29 09:40:45 · 1040 阅读 · 0 评论 -
实时数据处理架构之 --Apache Kafka
简介Kafka,分布式消息发布&订阅系统,流处理平台1.发布-订阅流式记录2.存储流式记录,有较好的容错性3.可以在流式记录产生时就进行处理 Kafka Streaming使用场景1.构建实时流数据管道,在系统和应用间有效的获取数据2.构建实时流式应用程序核心APIThe Producer API 允许一个应用程序发布一串流式的数据到一个或者多个Kafka topic...原创 2019-11-29 09:38:32 · 281 阅读 · 0 评论 -
快速搭建大数据环境(CDH)
地址https://www.cloudera.com/downloads/quickstart_vms/5-13.html在构建完成后导入MySQL数据到Hivesqoop import-all-tables \--connect jdbc:mysql://127.0.0.1:3306/retail_db \--username=retail_dba \--password=cl...原创 2019-10-01 14:50:43 · 611 阅读 · 0 评论 -
HBase Java API
HBase Java API1.HBaseConfigUtila.设置一个Hadoop的配置类b.使用set设置zookeeper所在的ip,zookeeper所在端口,以及HBase HMaster节点所在的ip和端口c.使用addSource配置Hadoop配置文件所在的目录和HBase所在文件的目录2.CreateTablea.设置一个config对象,一个connection对...原创 2019-09-22 11:33:09 · 167 阅读 · 0 评论 -
浅谈Hive与Spark数据倾斜
Spark中数据倾斜的现象,原因,后果?答:现象:多数Task任务执行速度较快,少数Task执行时间很长,或者等待很长时间后提示你内存不足,执行失败。原因:1.数据问题a.数据本身key分布不均衡,大量key值为空b.key值设置不合理2.spark的使用问题a.shuffle时,task任务的并发度不够b.设置计算方式可能有错误.后果:1.Spark中的stage执行时间...原创 2019-09-20 21:55:32 · 672 阅读 · 0 评论 -
Spark常用算子分类(自行总结摘要)
Transformation:1.map:对每个rdd中元素进行操作scala> val a = sc.parallelize(1 to 9)a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at :24scala> a.collectres9: Array[Int] = A...原创 2019-09-20 21:24:35 · 357 阅读 · 0 评论 -
HDFS读写流程
原创 2019-09-09 14:17:52 · 130 阅读 · 0 评论 -
Hadoop分布式集群搭建(HA)(爬坑成功!)
Hadoop分布式集群搭建(HA)1.准备四台虚拟机(我用的是vbox安装的centos7)2.安装jdk并配置环境变量3.使用xshell+xftp上传hadoop-2.7.3文件到Linux系统下,拷贝四份到虚拟机上,或配置免密登录发送文件过去,注意虚拟机之间最好配好彼此免密通信4.我的四台ip为:首先修改每台主机名称:vi /etc/hosts...原创 2019-06-18 20:26:01 · 411 阅读 · 0 评论 -
hadoop真分布式集群搭建(高可用性)
hadoop真分布式集群搭建(高可用性)搭建过程:1.准备三台虚拟机第一台:作为NameNode负责文件元数据的操作,全权管理数据库的复制第二台:作为DataNode负责处理文件内容的读写请求,数据流不经过NameNode第三台:作为SecondNameNode作用同NameNode高可用性体现:当NameNode失效后,DataNode自动将N...原创 2019-06-14 16:20:47 · 1195 阅读 · 0 评论 -
hive搭建
转载自:https://blog.csdn.net/weixin_44651989/article/details/91485137转载 2019-06-21 14:14:07 · 115 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---elasticsearch
ELK搜索引擎三剑客(存储+检索+分析) —elasticsearchelasticsearch:分布式搜索引擎,大规模数据的搜索下载es设置软连接 环境变量first: #编辑/etc/security/limits.conf,追加以下内容:* - nofile 65536 #针对当前系统针对所有用户最大打开文件数为65536second: #编辑/etc/...原创 2019-07-09 16:45:58 · 651 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---logstach(日志收集)
logstach安装解压 配环境变量#运行 logstach 必须手写conf配置文件logstach作为日志收集工具1.支持多种数据源输入2.支持多种过滤器3.支持多种数据输出目的地实例1:input {file{path =>["/etc/passwd","/var/log/messages"]start_position =>“beginning”si...原创 2019-07-09 17:36:57 · 706 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---Kibana(可视化展示)
1.安装修改kibana.yml文件中的server.host: “0.0.0.0”指定kibana.yml文件中数据来源为elasticsearch.url: “http://192.168.56.100:9200”2.端口:5601创建index patternManagement>Index Patterns>Create Index Pattern数据探索1.Di...原创 2019-07-09 17:37:42 · 498 阅读 · 0 评论 -
ElasticSearch综合练习题
一、雇员表查询1.添加以下三条信息到Elasticsearch,index为megacorp,type为employee,id分别为1,2,3{“first_name” : “John”,“last_name” : “Smith”,“age” : 25,“about” : “I love to go rock climbing”,“interests”: [...原创 2019-07-04 11:18:19 · 3859 阅读 · 8 评论 -
Hadoop完整伪分布式搭建(包含zookeeper+hbase+hive)
1.jdk2.jdk环境变量3.hadoop4.hadoop环境变量5.hadoop文件修改a.core-site.xml1. Fs.defaultFS = hdfs://192.168.220.129:90002. hadoop.tmp.dir=/usr/local/softwave/hadoop-2.7.3/tmpb.hdfs-site.xml1. Dfs.replicati...原创 2019-07-04 14:09:18 · 644 阅读 · 0 评论 -
Zeppelin安装配置
http://pan.baidu.com/s/1kVvcJL9 下载cd ~/zeppelin-0.7.3-bin-all/conf拷贝模板文件cp zeppelin-env.sh.template zeppelin-env.shvi zeppelin-env.sh添加环境变量 jdk目录 hadoop目录export JAVA_HOME=/usr/java/jdk1.7.0_7...原创 2019-07-15 08:46:05 · 307 阅读 · 0 评论 -
logstash安装
https://blog.csdn.net/weixin_44651989/article/details/93114458注意环境变量别写错了转载 2019-07-01 12:13:55 · 95 阅读 · 0 评论 -
Hbase导入外部数据
//导入数据 配置env.sh文件 指定列族,行键,表名hadoop jar /usr/soft/hbase-1.3.5/lib/hbase-server-1.3.5.jar importtsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,tel:telephone,date:regdate customer1 ...原创 2019-07-23 11:24:14 · 184 阅读 · 0 评论 -
Hadoop整理
Hadoop整理一台服务器登录到另一台a) Ssh + ip 例如ssh 192.168.56.100b) 登录其他计算机,都要输入密码 免密的目的就是能够方便登录Hadoop 分布式 启动的时候a) 启动首先在namenode启动所有服务b) 因为你datanode 是别的机器,不同服务器,必须有访问权限c) 所以需要设置免密 否则在启动每台节点的时候,都会提示你输入...原创 2019-08-30 08:43:56 · 202 阅读 · 1 评论 -
hadoop基本环境搭建(一)
hadoop环境配置(一)分布式 由分布在不同主机上的进程(程序)协同子啊一起才能构成整个应用。 Browser/web server:瘦客户端程序.大数据4V特征 1.Volumn : 体量大 2.Velocity : 速度快 3.Variaty ...原创 2019-06-05 16:20:11 · 213 阅读 · 0 评论