睡覺了-CSDN博客

原创 Kafka_数据消费

consumerimport org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import java.util

2025-07-24 17:30:32 242

原创 DTS_表数据同步

DTS 购买主页同步事实表到 DataHub 点击这里即可查看详细操作DataHub_同步事实表到 DataHub

2020-11-25 09:40:33 1323

原创 Prometheus_开源监控

Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展Prometheus 官方网址： https://prometheus.io/时间序列数据时间序列数据特点普罗米修斯特征...

2020-11-24 17:32:10 692

原创阿里云实时数仓总结

搭建一个实时数据仓库项目需求分析一：搞清楚我们要做什么？二：怎么做？熟悉使用阿里云技术框架熟悉表结构订单表（order_info）标签含义id 订单编号total_amount 订单金额order_status 订单状态user_id 用户 idpayment_way 支付方式out_trade_no 支付流水号create_time 创建时间operate_time 操作时间订单详情表（order_detail）标签 .

2020-11-24 16:59:21 1003

原创数据可视化_DataV

DataV 简介 DataV 数据可视化是使用可视化大屏的方式来分析并展示庞杂数据的产品。DataV 能让更多的人看到数据可视化的魅力，帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用，满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求DataV 和 QuckBI 区别DataV 更侧重单一屏幕的各种数据的丰富展示效果，更加直观酷炫。适用用于投射大屏。不注重用户的交互与灵活分析。QuickBI 侧重于给专业的运营、数据分析师通过多页面的图形报表.

2020-11-24 16:51:06 2273 1

原创 AnalyticDB

AnalyticDB 简介分析型数据库 MySQL 版（AnalyticDB for MySQL），是阿里巴巴自主研发的海量数据实时高并发在线分析（Realtime OLAP）云计算服务，使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。分析型数据库 MySQL 版对海量数据的自由计算和极速响应能力，能让用户在瞬息之间进行灵活的数据探索，快速发现数据价值，并可直接嵌入业务系统为终端客户提供分析服务。实时计算最终结果实时计算的最终结果要存储到结果表中那么就要使用到An..

2020-11-24 15:53:41 1712

原创构建计算流程

实时计算（Alibaba Cloud Realtime Compute，Powered by Ververica）是阿里云提供的基于 Apache Flink 构建的企业级大数据计算平台。在 PB 级别的数据集上可以支持亚秒级别的处理延时，赋能用户标准实时数据处理流程和行业解决方案；支持 Datastream API 作业开发，提供了批流统一的 Flink SQL，简化 BI 场景下的开发；可与用户已使用的大数据组件无缝对接，更多增值特性助力企业实时化转型。购买实时计算服务 htt..

2020-11-24 14:57:08 720 1

原创 DataHub

DataHub 简介 DataHub 类似于传统大数据解决方案中 Kafka 的角色，提供了一个数据队列功能。DataHub 除了供了一个缓冲的队列作用。同时由于 DataHub 提供了各种与其他阿里云上下游产品的对接功能，所以 DataHub 又扮演了一个数据的分发枢纽工作。DataHub 输入组件包括Flume：主流的开源日志采集框架DTS：类似 Canal，日志实时监控采集框架Logstash：也是日志采集框架，通常和 Elasticsearch、Kibana 集合使用Fl

2020-11-24 08:10:44 16173 2

原创 RDS购买并生成随机数据

购买 rds选择配置开通成功点击管理控制台等待运行即可使用：时间2分钟对rds 进行配置设置白名单https://www.ipip.net/ip.html 查询自己电脑 ip 并添加到配置中对外地址还需要用户名密码等待激活使用 mysql 连接 1 粘贴外网地址 2 用户名与密码调用存储过程生成随机数据生成数据在 My...

2020-11-23 15:17:30 769

原创项目介绍

内容：项目需求分析阿里云技术框架系统架构设计业务流程电商表结构业务数据准备

2020-11-23 14:37:34 619

原创集群所有进程查看脚本

vim Over_call.sh#!/bin/bashfor i in node001 node002 node003do echo ---------- $i -------- ssh $i "$* "done

2020-11-23 09:21:59 481 1

原创 Linux_连接问题

1 问题点：由于公司联网每次会分配虚拟ip 所以导致虚拟机连不上本机解决办法：将虚拟网络编辑器里的 vmnet8 的NAT模式与仅主机模式切换一下并应用

2020-11-17 09:21:48 475

原创大数据_知识点

1、在系统内添加一块硬盘，划分成两个分区，并实现开机自动挂载。vmwareworkstation中添加一块硬盘，linux中lsblk -f查看添加的硬盘，通过fdisk /dev/硬盘对添加硬盘进行分区，使用mkfs -t -ext4对分进行格式化，更改/etc/fstab文件进行挂载2、本地资源库配置流程上传光盘镜像并挂载，备份原repo文件，并复制其中任一份修改baseurl为file:///镜像挂载地址，关闭检查，enabled设置为1，修改name以及[]中内容3、网..

2020-10-28 16:14:29 3433 2

原创 MapReduce_Hbase_知识点

1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步:Shuffle中的Partition 将数据key的哈希值与ReduceTask数量取余,余几就分到

2020-10-28 16:12:25 636

原创小脚本

启动失败增加权限

2020-10-26 14:52:59 455

原创 Sqoop_脚本

linux 查询日期sqoop

2020-10-24 18:25:10 422

原创 Hive_知识点

Hive 组成元数据：描述数据的数据内部执行流程：编译器（把SQL语句编译成MapReduce程序）解析器（解析器SQL语句）优化器（优化MapRedue程序）执行器（将MapReduce程序运行的结果提交到HDFS）处理引擎 MR：MapReduceHive 与 Mysql 的区别除了语法接近，其他都不一样数据量：数据量越大 Hive 优势大，数据量小，mysql 速度：数据量越大 Hive越快，数据量小 mysql 越快查询：Hive...

2020-10-23 15:42:53 722

原创 Hive_表优化

表优化案例二三设置多个 reducer生产中 reducer 有很多个，所以会产生数据倾斜，那么我们随机分布空值，按什么呢，对比，解决数据倾斜...

2020-10-22 15:58:52 637

原创 Hive_DML_数据操作

数据导入覆盖通过查询语句插入数据多插入模式：将 from 那张表单独提出查询多个结果可以用union select a union select b根据查询结果创建表创建表通过 location 指定加载数据路径数据导出...

2020-10-22 15:37:47 441

原创 Hive_DDL

创建数据库切换与修改数据库扩展看详细信息 desc 和描述desc database extended table_name;描述desc formatted table_name;删除数据库创建表[ ] 中括号表示可选项 comment 添加注释 partitioned by 分区 clo_name 列名 clustered by 分桶 stored as f...

2020-10-22 15:07:19 267

原创数据生成

埋点数据基本格式公共字段：基本所有安卓手机都包含的字段业务字段：埋点上报的字段，有具体的业务字段例：示例日志：事件日志数据数据生成脚本springboot 代码接收数据日志行为数据模拟控制延时时间：再往下 new 一个事件数组配置日志...

2020-10-21 16:04:51 396

原创数仓岗位

在目前已知企业中，大数据内部结构如下平台组负责框架搭建，安装集群性能监控例：如果某个集群运行过程中突然挂掉，或者某台机器性能内存不够用。那么怎么能将这些问题立刻发现找到并解决，这就是集群性能监控。集群性能调优那么以上三点的工作岗位，统称为 “ 大数据平台工程师 ”数据仓库组ETL 工程师（数据清洗）例：清洗数据主要包括空值，重复数据，过期数据等等通过 kettle 或者其他一些技术手段过滤掉。数据分析（数据仓库建模）它是数据仓...

2020-10-21 15:04:06 2101

原创数仓概念

业务数据各行业在处理事务过程中产生的数据。例：用户在某商品网站上登录，下单，支付等过程中产生的数据就是业务数据那么业务数据通常存储在 mysql ，oracle 等数据库中用户行为数据用户在使用产品过程中，与客户端交互过程中产生的数据，比如页面浏览，点击，停留，点赞，评论，收藏等例：用户点击商品，在商品页面停留，收藏该商品等等操作，后续我们对这些数据进行规划，就可以达到促销效果。那么用户行为数据通常存储在日志文件中查看用户行为数据1 上商品网...

2020-10-21 15:03:51 444

原创数仓概述

数据仓库（Data Warehouse），是为企业指定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。数据仓库的数据怎么来？爬虫数据重点：爬虫不要操作过度否则就面向 jy 编程了用户行为数据用户来到网站，跟网站或者客户端进行一个交互，所产生的数据。存储在日志服务器以文件形式存储业务数据存储在 mysql 数据库处理用户行为数据，日志文件数据Flume实时采集日志文件，将它上传到数据仓库中处理业务数据Sqo...

2020-10-21 15:03:40 662

原创项目需求_技术选型_集群规划

项目需求一用户行为数据平台采集搭建将文件导入到数仓二业务数据采集平台搭建将mysql 数据导入到数仓三数据仓库维度建模书籍：数仓工具箱（将理论实现）四分析用户、流量、会员、商品、销售、地区、活动等电商核心主题，统计的报表指标近100多个。五采用即席查询工具，随时进行指标分析快速查询数据六集群监控对集群性能进行监控，发生异常需报警第一时间发现异常七元数据管理八质量监控例：日活跃平均在 1w ，突然有一天猛增为100w ，可能是算错了..

2020-10-21 15:02:29 612 2

原创基于CKE的应用部署

订购CKE等产品，基于应用程序介绍各产品的使用，贯穿 CKE部署应用全流程。使用到的有CKE、VPC、CLB、CCR、CBS，以及mysql镜像https://tg.unicom.local/#/1 创建VPC实例：私有云2 创建CLB实例：负载均衡器3 创建CKE实例4 扩缩容CKE资源5 创建CCR 6 上传镜像到CCR7 创建CBS ：云存储将日志持久化防止日志丢失8 创建使用CBS的yaml文件...

2020-09-27 15:31:01 4335 1

原创 MySQL comment 使用

在MySQL数据库中，表的注释是极为重要的，那么字段或列的注释是用属性 comment 来添加。创建新表的脚本中，可在字段定义脚本中添加comment 属性来添加注释。示例如下：create table server_load( id int not null default 0 comment '用户id' ) 如果是已经建好的表，也可以用修改字段的命令，然后加上comment属性定义，就可以添加上注释了。示例如下：-- 修改字段的命令，然后加上com...

2020-09-22 16:48:07 16533

原创 IDEA读取本地txt文件

public static void readTxtFile(String filePath) { try { String encoding = "utf-8"; File file = new File(filePath); if (file.isFile() && file.exists()) { //判断文件是否存在 InputStreamReader rea...

2020-09-11 14:20:44 4850

原创 Hbase 操作二

hbase表操作1.创建表create tablename cf(列族)2.展示所有表list3.插入数据put tablename rowkey cf(列族):cname(列名),值4.查询指定rowkey数据get tablename rowkey5.查询所有数据scan tablename6.手动强制溢写flush tablename7.查看文件数据hbase hfile -p -f file:///home/testuser/hbase/data/default/tbl/regions

2020-08-07 11:05:34 447

原创 Hbase数据库操作命令

HBase的使用1、自带了shell命令行$ bin/hbase shell2、输入help获取帮助信息3、shell命令行的删除，需要按住ctrl+删除键才可以删除4、list列出当前数据库中的表5、list_namespace列出当前数据库中的所有namespaceHBase的DDL操作1、创建namespace-》查看帮助信息，找到创建的语法格式：help 'create_namespace'，注意要加上引号create_namespace 'nstest'2、描..

2020-08-06 17:34:06 1636

原创 Kafa_Consumer

import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import java.util.Arrays;i.

2020-08-06 14:58:17 780

原创 Hbase_MR集成_2

package HBASEMR12;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.

2020-08-06 14:27:17 433

原创 idea 创建maven后无法创建scala object类

1可能是因为maven的配置问题（也有可能是其他问题只供参考）file->settings->Build,Excution->Build Tools->Maven now do：去掉选中Execute goals的选中选中Use plugin2如果你项目下面本身就有一个Java项目，那么可以直接改名，创建scala class了如果没有看下面：右键-》new-》directory-》输入scala-》右键scala文件-》Mark D...

2020-08-05 10:20:06 2603

原创 scala_准备_spark_基础

package model.Caseimport scala.collection.mutable.ListBufferobject Case_01 { case class case1(name: String, age: Int) { } def main(args: Array[String]): Unit = { //样例类不需要new //val 表示不可变 var 表示可变 // var a1 = case1("zhang",.

2020-08-04 14:42:55 472

原创 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择Ctrl+N，可以快速打开类Ctrl+Shift+N，可以快速打开文件Alt+Q，可以看到当前方法的声明Ctrl+P，可以显示参数信...

2020-08-04 09:41:29 380

原创 scala+Idea环境配置

下载Scala插件1.我们可以直接在Idea工具上下载File——settings——plugins，输入Scala搜索（下图是我已经安装好了）2 直接到 scala 官网直接下载自己 idea 版本的 scala 版本网址： http://plugins.jetbrains.com/plugin/1347-scala操作1：查看IDEA的版本号操作2：到IDEA官网下载对应版本的IDEA scala插件请务必下载IDEA版本一致的scala插件...

2020-08-03 19:27:46 743

原创 Kafka_mysql_数据生产

entitypackage com.entity;/** * Created by 一个蔡狗 on 2020/7/13. */public class tblNpsDetailedRelevance { /** * entity 层 */ private String detailed_id; // 主 id private String bank_code; private String recvteleno; p

2020-07-29 15:08:25 566

原创 Hbase 数据找回

Write-Ahead logs

2020-07-29 14:57:55 429

原创 Mysql分表_短链接实现

业务场景根据长链接生成一个短链接。根据短链接解析出长链接。实现方式如何实现这个功能呢？也许你会考虑实现一个算法，将长链接转成短链接，实现长短的一一对应。然后再实现逆运算，将短链接换算回长链接。当然这种算法是不可能存在的。如果有那你就发现了世界上最牛的压缩算法了。其实短链接的实现并没有一个固定的算法，主要的原理就是把长链接通过一定的规则得到一个短链接，然后把长链接和短链接的关系记录在数据库中（你可以使用关系型数据库或者非关系型数据库NoSql）。当用户访问短链接时，短链接服务根据短链接查找

2020-06-15 17:58:25 883

原创 sftp 上传文件_2

1 官方API查看地址（附件为需要的jar）http://www.jcraft.com/jsch/2 api常用的方法：put()：文件上传get()：文件下载cd()：进入指定目录ls()：得到指定目录下的文件列表rename()：重命名指定文件或目录rm()：删除指定文件mkdir()：创建目录rmdir()：删除目录put和get都有多个重载方法，自己看源代码...

2020-06-08 17:19:53 963

Kafka知识点.docx

Kafka生态系统四大角色，生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper

2020-04-03

Yarn日记.docx

什么是Yarn ：通用资源管理系统和调度平台 Yarn特点： 1、支持多计算框架 2、资源利用率高，运行成本低，数据共享。 Yarn的意义：降低了企业硬件的成本（多个集群变成一个集群），减少了资源的了浪费，运营成本低。

2020-04-03

用户画像01：用户画像概念、项目概述及环境搭建.md

- **用户属性的研究侧重于显式地搜集用户特征信息**，主要体现在社会化标注系统领域，通过社会化标注系统搜集比较全面的用户信息，用于多方位的了解用户。

2020-06-04

用户画像02：业务数据调研及ETL.md

整个用户画像（UserProfile）项目中，数据、业务及技术流程图表的结构数据库Database

2020-06-04

Scala样例类练习.docx

1创建一个demo1的单例，在demo1中创建一个样例类名字为student1，成员变量为name:String, age:Int 创建主方法实例化student，并传参数（“xiaoming”,20）,打印输出student1对象到控制台创建一个demo2的单例，在demo2中创建一个样例类名字为student2，成员变量为name:String, age:Int 创建主方法实例化student2，并传参数（“xiaoming”,20）,修改student2对象的age=25,打印输出student2对象到控制台等等

2020-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Kafka知识点.docx

Yarn日记.docx

用户画像01：用户画像概念、项目概述及环境搭建.md

用户画像02：业务数据调研及ETL.md

Scala样例类练习.docx

sublime-text-build-4143-mac

用户画像系统_【标签体系】信息.xlsx

Spark笔记1.docx

大数据优化.pptx

Scala文档.docx

Redis命令日记.docx

空空如也