大数据
大数据 教会了我们很多东西
睡覺了
我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
-
大数据到底是什么?
全社会都对大数据的概念很痴迷,动辄 “大数据告诉你……”但是大数据到底是什么呢?说到定义,恐怕仁者见仁、智者见智。不过从处理技术上来看,大数据意味着大量的和复杂的数据,它是不能够使用传统的数据库管理工具进行管理的。而且,要被划分为大数据范畴,那数据的大小应该在pb级以上,且呈现指数级增长。什么是大数据? ? 大数据 :指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。...原创 2019-10-28 11:58:37 · 12586 阅读 · 3 评论 -
Mysql_循环执行存储过程
package test;import jdbc.MysqlHelper;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.List;public class test2 { public static void m.原创 2020-12-10 16:47:48 · 796 阅读 · 1 评论 -
DTS_表数据同步
DTS 购买主页同步事实表到 DataHub 点击这里 即可查看详细操作DataHub_同步事实表到 DataHub原创 2020-11-25 09:40:33 · 1085 阅读 · 0 评论 -
Prometheus_开源监控
Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展Prometheus 官方网址: https://prometheus.io/时间序列数据时间序列数据特点普罗米修斯特征...原创 2020-11-24 17:32:10 · 475 阅读 · 0 评论 -
阿里云实时数仓总结
搭建一个实时数据仓库项目需求分析一 : 搞清楚我们要做什么 ?二 :怎么做?熟悉使用 阿里云技术框架熟悉 表结构订单表(order_info)标签 含义id 订单编号total_amount 订单金额order_status 订单状态user_id 用户 idpayment_way 支付方式out_trade_no 支付流水号create_time 创建时间operate_time 操作时间订单详情表(order_detail)标签 .原创 2020-11-24 16:59:21 · 714 阅读 · 0 评论 -
数据可视化_DataV
DataV 简介 DataV 数据可视化是使用可视化大屏的方式来分析并展示庞杂数据的产品。DataV 能让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求DataV 和 QuckBI 区别DataV 更侧重单一屏幕的各种数据的丰富展示效果,更加直观酷炫。适用用于投射大屏。不注重用户的交互与灵活分析。QuickBI 侧重于给专业的运营、数据分析师通过多页面的图形报表.原创 2020-11-24 16:51:06 · 1783 阅读 · 1 评论 -
DataHub
DataHub 简介 DataHub 类似于传统大数据解决方案中 Kafka 的角色,提供了一个数据队列功能。DataHub 除了供了一个缓冲的队列作用。同时由于 DataHub 提供了各种与其他阿里云上下游产品的对接功能,所以 DataHub 又扮演了一个数据的分发枢纽工作。DataHub 输入组件包括Flume:主流的开源日志采集框架DTS:类似 Canal,日志实时监控采集框架Logstash:也是日志采集框架,通常和 Elasticsearch、Kibana 集合使用Fl原创 2020-11-24 08:10:44 · 15411 阅读 · 2 评论 -
RDS购买并生成随机数据
购买 rds选择配置开通成功 点击管理控制台等待运行 即可使用 :时间2分钟对rds 进行配置设置白名单https://www.ipip.net/ip.html 查询自己电脑 ip 并添加到配置中对外地址还需要 用户名 密码等待激活使用 mysql 连接 1 粘贴外网地址 2 用户名 与密码调用存储过程生成随机数据生成数据在 My...原创 2020-11-23 15:17:30 · 570 阅读 · 0 评论 -
项目介绍
内容:项目需求分析阿里云技术框架系统架构设计业务流程电商表结构业务数据准备原创 2020-11-23 14:37:34 · 443 阅读 · 0 评论 -
集群所有进程查看脚本
vim Over_call.sh#!/bin/bashfor i in node001 node002 node003do echo ---------- $i -------- ssh $i "$* "done原创 2020-11-23 09:21:59 · 296 阅读 · 1 评论 -
Linux_连接问题
1 问题点: 由于公司联网每次会分配虚拟ip 所以导致虚拟机连不上本机解决办法:将 虚拟网络编辑器 里的 vmnet8 的NAT模式 与 仅主机模式 切换一下 并应用原创 2020-11-17 09:21:48 · 263 阅读 · 0 评论 -
大数据_知识点
1、在系统内添加一块硬盘,划分成两个分区,并实现开机自动挂载。vmwareworkstation中添加一块硬盘,linux中lsblk -f查看添加的硬盘,通过fdisk /dev/硬盘 对添加硬盘进行分区,使用mkfs -t -ext4对分进行格式化,更改/etc/fstab文件进行挂载2、本地资源库配置流程上传光盘镜像并挂载,备份原repo文件,并复制其中任一份修改baseurl为file:///镜像挂载地址,关闭检查,enabled设置为1,修改name以及[]中内容3、网..原创 2020-10-28 16:14:29 · 3139 阅读 · 2 评论 -
MapReduce_Hbase_知识点
1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步:Shuffle中的Partition 将数据key的哈希值与ReduceTask数量取余,余几就分到原创 2020-10-28 16:12:25 · 426 阅读 · 0 评论 -
小脚本
启动失败 增加权限原创 2020-10-26 14:52:59 · 260 阅读 · 0 评论 -
Sqoop_脚本
linux 查询日期sqoop原创 2020-10-24 18:25:10 · 227 阅读 · 0 评论 -
Hive_知识点
Hive 组成元数据:描述数据的数据 内部执行流程 : 编译器(把SQL语句编译成MapReduce程序) 解析器(解析器SQL语句) 优化器(优化MapRedue程序) 执行器(将MapReduce程序运行的结果提交到HDFS) 处理引擎 MR:MapReduceHive 与 Mysql 的区别除了语法接近 ,其他都不一样 数据量 : 数据量越大 Hive 优势大 ,数据量小,mysql 速度:数据量越大 Hive越快,数据量小 mysql 越快 查询:Hive...原创 2020-10-23 15:42:53 · 444 阅读 · 0 评论 -
Hive_表优化
表优化案例二三设置多个 reducer生产中 reducer 有 很多个 ,所以会产生数据倾斜 ,那么我们随机分布空 值 ,按什么呢 ,对比 ,解决数据倾斜...原创 2020-10-22 15:58:52 · 415 阅读 · 0 评论 -
Hive_DML_数据操作
数据导入覆盖通过查询语句 插入数据多插入模式 : 将 from 那张表 单独 提出 查询多个结果 可以用union select a union select b根据查询结果创建表创建表 通过 location 指定加载数据路径数据导出...原创 2020-10-22 15:37:47 · 241 阅读 · 0 评论 -
Hive_DDL
创建数据库切换与修改数据库扩展看 详细信息 desc 和 描述desc database extended table_name;描述desc formatted table_name;删除数据库创建表[ ] 中括号 表示 可选项 comment 添加注释 partitioned by 分区 clo_name 列名 clustered by 分桶 stored as f...原创 2020-10-22 15:07:19 · 149 阅读 · 0 评论 -
数据生成
埋点数据基本格式公共字段:基本所有安卓手机都包含的字段 业务字段:埋点上报的字段,有具体的业务字段 例 : 示例日志:事件日志数据数据生成脚本springboot 代码 接收数据日志行为数据模拟 控制延时时间:再往下 new 一个事件数组配置日志...原创 2020-10-21 16:04:51 · 200 阅读 · 0 评论 -
项目需求_技术选型_集群规划
项目需求一 用户行为数据平台采集搭建将文件导入到数仓二 业务数据采集平台搭建将mysql 数据导入到数仓三 数据仓库维度建模书籍: 数仓工具箱(将理论实现)四 分析用户、流量、会员、商品、销售、地区、活动 等电商核心主题,统计的报表指标近100多个。五 采用即席查询工具,随时进行指标分析快速查询数据六 集群监控对集群性能进行监控,发生异常需报警 第一时间发现异常七 元数据管理八 质量监控例:日活跃 平均在 1w ,突然有一天猛增为100w ,可能是算错了..原创 2020-10-21 15:02:29 · 409 阅读 · 2 评论 -
数仓概述
数据仓库(Data Warehouse) ,是为企业指定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。数据仓库的数据怎么来 ?爬虫数据重点:爬虫不要操作过度否则就面向 jy 编程了用户行为数据用户来到网站,跟网站或者客户端进行一个交互,所产生的数据。 存储在 日志服务器 以文件形式存储业务数据存储在 mysql 数据库处理用户行为数据,日志文件数据Flume实时采集日志文件,将它上传到数据仓库中处理业务数据Sqo...原创 2020-10-21 15:03:40 · 455 阅读 · 0 评论 -
数仓概念
业务数据各行业在处理事务过程中产生的数据 。例: 用户在某商品网站上登录,下单,支付等过程中产生的数据就是 业务数据那么 业务数据 通常存储在 mysql ,oracle 等数据库中用户行为数据用户在使用产品过程中,与客户端交互过程中产生的数据,比如页面浏览,点击,停留,点赞,评论,收藏等例:用户点击商品 ,在商品页面停留,收藏该商品等等操作 ,后续我们对这些数据进行规划,就可以达到促销效果。那么用户行为数据通常存储在日志文件中 查看用户行为数据1 上商品网...原创 2020-10-21 15:03:51 · 228 阅读 · 0 评论 -
数仓岗位
在目前已知企业中,大数据内部结构如下平台组负责框架搭建,安装 集群性能监控 例:如果某个集群运行过程中突然挂掉,或者某台机器性能 内存不够用 。 那么怎么能将这些问题立刻发现 找到 并解决,这就是集群性能监控。 集群性能调优 那么以上三点的工作岗位,统称为 “ 大数据平台工程师 ”数据仓库组ETL 工程师(数据清洗) 例:清洗数据主要包括 空值,重复数据,过期数据等等通过 kettle 或者其他一些技术手段 过滤掉。 数据分析 (数据仓库建模) 它是数据仓...原创 2020-10-21 15:04:06 · 1817 阅读 · 0 评论 -
基于CKE的应用部署
订购CKE等产品,基于应用程序介绍各产品的使用,贯穿 CKE部署应用全流程。使用到的有CKE、VPC、CLB、CCR、CBS,以及mysql镜像https://tg.unicom.local/#/1 创建VPC实例 :私有云2 创建CLB实例 : 负载均衡器3 创建CKE实例4 扩缩容CKE资源5 创建CCR 6 上传镜像到CCR7 创建CBS :云存储 将日志持久化 防止日志丢失8 创建使用CBS的yaml文件...原创 2020-09-27 15:31:01 · 3668 阅读 · 1 评论 -
Hbase数据库操作命令
HBase的使用1、自带了shell命令行$ bin/hbase shell2、输入help获取帮助信息3、shell命令行的删除,需要按住ctrl+删除键才可以删除4、list列出当前数据库中的表5、list_namespace列出当前数据库中的所有namespaceHBase的DDL操作1、创建namespace-》查看帮助信息,找到创建的语法格式:help 'create_namespace',注意要加上引号create_namespace 'nstest'2、描..原创 2020-08-06 17:34:06 · 1383 阅读 · 0 评论 -
Kafa_Consumer
import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import java.util.Arrays;i.原创 2020-08-06 14:58:17 · 549 阅读 · 0 评论 -
Hbase_MR集成_2
package HBASEMR12;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.原创 2020-08-06 14:27:17 · 252 阅读 · 0 评论 -
idea 创建maven后无法创建scala object类
1可能是因为maven的配置问题 (也有可能是其他问题 只供参考)file->settings->Build,Excution->Build Tools->Maven now do: 去掉选中Execute goals的选中选中Use plugin2如果你项目下面本身就有一个Java项目,那么可以直接改名,创建scala class了如果没有看下面:右键-》new-》directory-》输入scala-》右键scala文件-》Mark D...原创 2020-08-05 10:20:06 · 2276 阅读 · 0 评论 -
scala_准备_spark_基础
package model.Caseimport scala.collection.mutable.ListBufferobject Case_01 { case class case1(name: String, age: Int) { } def main(args: Array[String]): Unit = { //样例类 不需要new //val 表示 不可变 var 表示可变 // var a1 = case1("zhang",.原创 2020-08-04 14:42:55 · 296 阅读 · 0 评论 -
scala+Idea环境配置
下载Scala插件1.我们可以直接在Idea工具上下载File——settings——plugins,输入Scala搜索(下图是我已经安装好了)2 直接到 scala 官网 直接下载自己 idea 版本的 scala 版本网址 : http://plugins.jetbrains.com/plugin/1347-scala操作1:查看IDEA的版本号操作2:到IDEA官网下载对应版本的IDEA scala插件请务必下载IDEA版本一致的scala插件...原创 2020-08-03 19:27:46 · 514 阅读 · 0 评论 -
Kafka_mysql_数据生产
entitypackage com.entity;/** * Created by 一个蔡狗 on 2020/7/13. */public class tblNpsDetailedRelevance { /** * entity 层 */ private String detailed_id; // 主 id private String bank_code; private String recvteleno; p原创 2020-07-29 15:08:25 · 355 阅读 · 0 评论 -
Hbase 数据找回
Write-Ahead logs原创 2020-07-29 14:57:55 · 255 阅读 · 0 评论 -
sftp 上传文件_2
1 官方API查看地址(附件为需要的jar)http://www.jcraft.com/jsch/2 api常用的方法:put(): 文件上传get(): 文件下载cd(): 进入指定目录ls(): 得到指定目录下的文件列表rename(): 重命名指定文件或目录rm(): 删除指定文件mkdir(): 创建目录rmdir(): 删除目录put和get都有多个重载方法,自己看源代码...原创 2020-06-08 17:19:53 · 741 阅读 · 0 评论 -
sftp上传文件
今天,在工作中,写一点关于sftp上传文件的代码,主要分为连接、上传、断开3个步骤,其代码如下:/** * sftp连接 * *@authorfengbo 20140226 */public void connect(String username, String host, int port, String password) {try {if (sftp != null) {log.info("sftp is not null");}J...原创 2020-06-08 17:13:10 · 832 阅读 · 0 评论 -
Linux 传输工具( ftp sftp )
Ubuntu 安装 ftp 服务器 apt-get install vsftpd配置服务器vim /etc/vsftpd.conf (Ubuntu) 或者 vim /etc/vsftpd/vsftpd.conf启动ftp 服务器/etc/ini.d//vsftpd restart 或者 service vsftpd restart安装 ftp 客户端apt-get install ftpftp 使用命令下载 到桌面...原创 2020-06-07 15:07:38 · 1604 阅读 · 0 评论 -
用户画像-打标签
标签样例类package cn.itcast.czxy.BD18.beancase class HBaseMeta ( inType:String, zkHosts:String, zkPort:String , hbaseTable:String , family:Stri原创 2020-06-04 14:55:20 · 1878 阅读 · 0 评论 -
Spark 理论
目录1、Spark有几种部署方式?(重点)2、Spark提交作业参数(重点)3、简述Spark on yarn的作业提交流程(重点)4、请列举Spark的transformation算子(不少于5个)(重点)5、请列举Spark的action算子(不少于5个)(重点)6、简述Spark的两种核心Shuffle(重点)7、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?(重点)8、Repartition和Coalesce关系与区别(重点)9原创 2020-05-26 14:28:19 · 3946 阅读 · 0 评论 -
Kylin_亚秒级数据预处理(多表)
目录按照订单渠道名称统计订单总额/总数量1、创建Model2、创建Cube3、执行构建、等待构建完成4、执行SQL查询,获取结果按照订单渠道名称统计订单总额/总数量1、创建Model指定关联表、关联条件添加 查找 第二张表设置 事实表 与 维度表 之间的 主外键 对应字段图解 1图解 2选择指标 / 度量2、创建Cube选择 所需要的 维度选择 指标查看...原创 2020-05-14 17:04:59 · 7096 阅读 · 0 评论 -
Kylin_亚秒级数据预处理(单表)
测试数据表结构介绍1、(事实表)dw_sales 列名 列类型 说明 id string 订单id date1 string 订单日期 channelid string 订单渠道(商场、京东、天猫) productid原创 2020-05-14 16:21:48 · 6727 阅读 · 0 评论