自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(327)
  • 资源 (10)
  • 收藏
  • 关注

原创 Mysql_循环执行存储过程

package test;import jdbc.MysqlHelper;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Calendar;import java.util.Date;import java.util.List;public class test2 { public static void m.

2020-12-10 16:47:48 786 1

原创 Mysql 字段操作

mysql 批量为表添加多个字段alter table 表名 add (字段1 类型(长度),字段2 类型(长度),字段3 类型(长度));alter table pro_add add (pro_sex int(11),pro_age int(11),pro_lenth int(11));删除一个字段alter table pro_add DROP COLUMN age;修改一个字段alter table pro_add MODIFY name VARCHAR(1

2020-12-03 10:36:09 386

原创 DTS_表数据同步

DTS 购买主页同步事实表到 DataHub 点击这里 即可查看详细操作DataHub_同步事实表到 DataHub

2020-11-25 09:40:33 1082

原创 Prometheus_开源监控

Prometheus(由go语言(golang)开发)是一套开源的监控&报警&时间序列数据库的组合。适合监控docker容器。因为kubernetes(俗称k8s)的流行带动了prometheus的发展Prometheus 官方网址: https://prometheus.io/时间序列数据时间序列数据特点普罗米修斯特征...

2020-11-24 17:32:10 463

原创 阿里云实时数仓总结

搭建一个实时数据仓库项目需求分析一 : 搞清楚我们要做什么 ?二 :怎么做?熟悉使用 阿里云技术框架熟悉 表结构订单表(order_info)标签 含义id 订单编号total_amount 订单金额order_status 订单状态user_id 用户 idpayment_way 支付方式out_trade_no 支付流水号create_time 创建时间operate_time 操作时间订单详情表(order_detail)标签 .

2020-11-24 16:59:21 704

原创 数据可视化_DataV

DataV 简介 DataV 数据可视化是使用可视化大屏的方式来分析并展示庞杂数据的产品。DataV 能让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求DataV 和 QuckBI 区别DataV 更侧重单一屏幕的各种数据的丰富展示效果,更加直观酷炫。适用用于投射大屏。不注重用户的交互与灵活分析。QuickBI 侧重于给专业的运营、数据分析师通过多页面的图形报表.

2020-11-24 16:51:06 1766 1

原创 AnalyticDB

AnalyticDB 简介分析型数据库 MySQL 版(AnalyticDB for MySQL),是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。分析型数据库 MySQL 版对海量数据的自由计算和极速响应能力,能让用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。实时计算最终结果实时计算的最终结果要存储到 结果表中 那么就要使用到An..

2020-11-24 15:53:41 1394

原创 DataHub

DataHub 简介 DataHub 类似于传统大数据解决方案中 Kafka 的角色,提供了一个数据队列功能。DataHub 除了供了一个缓冲的队列作用。同时由于 DataHub 提供了各种与其他阿里云上下游产品的对接功能,所以 DataHub 又扮演了一个数据的分发枢纽工作。DataHub 输入组件包括Flume:主流的开源日志采集框架DTS:类似 Canal,日志实时监控采集框架Logstash:也是日志采集框架,通常和 Elasticsearch、Kibana 集合使用Fl

2020-11-24 08:10:44 15352 2

原创 RDS购买并生成随机数据

购买 rds选择配置开通成功 点击管理控制台等待运行 即可使用 :时间2分钟对rds 进行配置设置白名单https://www.ipip.net/ip.html 查询自己电脑 ip 并添加到配置中对外地址还需要 用户名 密码等待激活使用 mysql 连接 1 粘贴外网地址 2 用户名 与密码调用存储过程生成随机数据生成数据在 My...

2020-11-23 15:17:30 565

原创 项目介绍

内容:项目需求分析阿里云技术框架系统架构设计业务流程电商表结构业务数据准备

2020-11-23 14:37:34 437

原创 集群所有进程查看脚本

vim Over_call.sh#!/bin/bashfor i in node001 node002 node003do echo ---------- $i -------- ssh $i "$* "done

2020-11-23 09:21:59 293 1

原创 Linux_连接问题

1 问题点: 由于公司联网每次会分配虚拟ip 所以导致虚拟机连不上本机解决办法:将 虚拟网络编辑器 里的 vmnet8 的NAT模式 与 仅主机模式 切换一下 并应用

2020-11-17 09:21:48 259

原创 大数据_知识点

1、在系统内添加一块硬盘,划分成两个分区,并实现开机自动挂载。vmwareworkstation中添加一块硬盘,linux中lsblk -f查看添加的硬盘,通过fdisk /dev/硬盘 对添加硬盘进行分区,使用mkfs -t -ext4对分进行格式化,更改/etc/fstab文件进行挂载2、本地资源库配置流程上传光盘镜像并挂载,备份原repo文件,并复制其中任一份修改baseurl为file:///镜像挂载地址,关闭检查,enabled设置为1,修改name以及[]中内容3、网..

2020-10-28 16:14:29 3124 2

原创 MapReduce_Hbase_知识点

1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步:Shuffle中的Partition 将数据key的哈希值与ReduceTask数量取余,余几就分到

2020-10-28 16:12:25 423

原创 小脚本

启动失败 增加权限

2020-10-26 14:52:59 254

原创 Sqoop_脚本

linux 查询日期sqoop

2020-10-24 18:25:10 224

原创 Hive_知识点

Hive 组成元数据:描述数据的数据 内部执行流程 : 编译器(把SQL语句编译成MapReduce程序) 解析器(解析器SQL语句) 优化器(优化MapRedue程序) 执行器(将MapReduce程序运行的结果提交到HDFS) 处理引擎 MR:MapReduceHive 与 Mysql 的区别除了语法接近 ,其他都不一样 数据量 : 数据量越大 Hive 优势大 ,数据量小,mysql 速度:数据量越大 Hive越快,数据量小 mysql 越快 查询:Hive...

2020-10-23 15:42:53 438

原创 Hive_表优化

表优化案例二三设置多个 reducer生产中 reducer 有 很多个 ,所以会产生数据倾斜 ,那么我们随机分布空 值 ,按什么呢 ,对比 ,解决数据倾斜...

2020-10-22 15:58:52 410

原创 Hive_DML_数据操作

数据导入覆盖通过查询语句 插入数据多插入模式 : 将 from 那张表 单独 提出 查询多个结果 可以用union select a union select b根据查询结果创建表创建表 通过 location 指定加载数据路径数据导出...

2020-10-22 15:37:47 237

原创 Hive_DDL

创建数据库切换与修改数据库扩展看 详细信息 desc 和 描述desc database extended table_name;描述desc formatted table_name;删除数据库创建表[ ] 中括号 表示 可选项 comment 添加注释 partitioned by 分区 clo_name 列名 clustered by 分桶 stored as f...

2020-10-22 15:07:19 146

原创 数据生成

埋点数据基本格式公共字段:基本所有安卓手机都包含的字段 业务字段:埋点上报的字段,有具体的业务字段 例 : 示例日志:事件日志数据数据生成脚本springboot 代码 接收数据日志行为数据模拟 控制延时时间:再往下 new 一个事件数组配置日志...

2020-10-21 16:04:51 196

原创 数仓岗位

在目前已知企业中,大数据内部结构如下平台组负责框架搭建,安装 集群性能监控 例:如果某个集群运行过程中突然挂掉,或者某台机器性能 内存不够用 。 那么怎么能将这些问题立刻发现 找到 并解决,这就是集群性能监控。 集群性能调优 那么以上三点的工作岗位,统称为 “ 大数据平台工程师 ”数据仓库组ETL 工程师(数据清洗) 例:清洗数据主要包括 空值,重复数据,过期数据等等通过 kettle 或者其他一些技术手段 过滤掉。 数据分析 (数据仓库建模) 它是数据仓...

2020-10-21 15:04:06 1807

原创 数仓概念

业务数据各行业在处理事务过程中产生的数据 。例: 用户在某商品网站上登录,下单,支付等过程中产生的数据就是 业务数据那么 业务数据 通常存储在 mysql ,oracle 等数据库中用户行为数据用户在使用产品过程中,与客户端交互过程中产生的数据,比如页面浏览,点击,停留,点赞,评论,收藏等例:用户点击商品 ,在商品页面停留,收藏该商品等等操作 ,后续我们对这些数据进行规划,就可以达到促销效果。那么用户行为数据通常存储在日志文件中 查看用户行为数据1 上商品网...

2020-10-21 15:03:51 223

原创 数仓概述

数据仓库(Data Warehouse) ,是为企业指定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。数据仓库的数据怎么来 ?爬虫数据重点:爬虫不要操作过度否则就面向 jy 编程了用户行为数据用户来到网站,跟网站或者客户端进行一个交互,所产生的数据。 存储在 日志服务器 以文件形式存储业务数据存储在 mysql 数据库处理用户行为数据,日志文件数据Flume实时采集日志文件,将它上传到数据仓库中处理业务数据Sqo...

2020-10-21 15:03:40 453

原创 项目需求_技术选型_集群规划

项目需求一 用户行为数据平台采集搭建将文件导入到数仓二 业务数据采集平台搭建将mysql 数据导入到数仓三 数据仓库维度建模书籍: 数仓工具箱(将理论实现)四 分析用户、流量、会员、商品、销售、地区、活动 等电商核心主题,统计的报表指标近100多个。五 采用即席查询工具,随时进行指标分析快速查询数据六 集群监控对集群性能进行监控,发生异常需报警 第一时间发现异常七 元数据管理八 质量监控例:日活跃 平均在 1w ,突然有一天猛增为100w ,可能是算错了..

2020-10-21 15:02:29 405 2

原创 基于CKE的应用部署

订购CKE等产品,基于应用程序介绍各产品的使用,贯穿 CKE部署应用全流程。使用到的有CKE、VPC、CLB、CCR、CBS,以及mysql镜像https://tg.unicom.local/#/1 创建VPC实例 :私有云2 创建CLB实例 : 负载均衡器3 创建CKE实例4 扩缩容CKE资源5 创建CCR 6 上传镜像到CCR7 创建CBS :云存储 将日志持久化 防止日志丢失8 创建使用CBS的yaml文件...

2020-09-27 15:31:01 3631 1

原创 MySQL comment 使用

在MySQL数据库中, 表的注释是极为重要的,那么字段或列的注释是用属性 comment 来添加。创建新表的脚本中, 可在字段定义脚本中添加comment 属性来添加注释。示例如下:create table server_load( id int not null default 0 comment '用户id' ) 如果是已经建好的表, 也可以用修改字段的命令,然后加上comment属性定义,就可以添加上注释了。示例如下:-- 修改字段的命令,然后加上com...

2020-09-22 16:48:07 15445

原创 IDEA读取本地txt文件

public static void readTxtFile(String filePath) { try { String encoding = "utf-8"; File file = new File(filePath); if (file.isFile() && file.exists()) { //判断文件是否存在 InputStreamReader rea...

2020-09-11 14:20:44 4293

原创 Hbase 操作二

hbase表操作1.创建表create tablename cf(列族)2.展示所有表list3.插入数据put tablename rowkey cf(列族):cname(列名),值4.查询指定rowkey数据get tablename rowkey5.查询所有数据scan tablename6.手动强制溢写flush tablename7.查看文件数据hbase hfile -p -f file:///home/testuser/hbase/data/default/tbl/regions

2020-08-07 11:05:34 270

原创 Hbase数据库操作命令

HBase的使用1、自带了shell命令行$ bin/hbase shell2、输入help获取帮助信息3、shell命令行的删除,需要按住ctrl+删除键才可以删除4、list列出当前数据库中的表5、list_namespace列出当前数据库中的所有namespaceHBase的DDL操作1、创建namespace-》查看帮助信息,找到创建的语法格式:help 'create_namespace',注意要加上引号create_namespace 'nstest'2、描..

2020-08-06 17:34:06 1372

原创 Kafa_Consumer

import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import java.util.Arrays;i.

2020-08-06 14:58:17 541

原创 Hbase_MR集成_2

package HBASEMR12;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.

2020-08-06 14:27:17 251

原创 idea 创建maven后无法创建scala object类

1可能是因为maven的配置问题 (也有可能是其他问题 只供参考)file->settings->Build,Excution->Build Tools->Maven now do: 去掉选中Execute goals的选中选中Use plugin2如果你项目下面本身就有一个Java项目,那么可以直接改名,创建scala class了如果没有看下面:右键-》new-》directory-》输入scala-》右键scala文件-》Mark D...

2020-08-05 10:20:06 2258

原创 scala_准备_spark_基础

package model.Caseimport scala.collection.mutable.ListBufferobject Case_01 { case class case1(name: String, age: Int) { } def main(args: Array[String]): Unit = { //样例类 不需要new //val 表示 不可变 var 表示可变 // var a1 = case1("zhang",.

2020-08-04 14:42:55 292

原创 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可以快速打开类Ctrl+Shift+N,可以快速打开文件Alt+Q,可以看到当前方法的声明Ctrl+P,可以显示参数信...

2020-08-04 09:41:29 214

原创 scala+Idea环境配置

下载Scala插件1.我们可以直接在Idea工具上下载File——settings——plugins,输入Scala搜索(下图是我已经安装好了)2 直接到 scala 官网 直接下载自己 idea 版本的 scala 版本网址 : http://plugins.jetbrains.com/plugin/1347-scala操作1:查看IDEA的版本号操作2:到IDEA官网下载对应版本的IDEA scala插件请务必下载IDEA版本一致的scala插件...

2020-08-03 19:27:46 512

原创 Kafka_mysql_数据生产

entitypackage com.entity;/** * Created by 一个蔡狗 on 2020/7/13. */public class tblNpsDetailedRelevance { /** * entity 层 */ private String detailed_id; // 主 id private String bank_code; private String recvteleno; p

2020-07-29 15:08:25 348

原创 Hbase 数据找回

Write-Ahead logs

2020-07-29 14:57:55 254

原创 Mysql分表_短链接实现

业务场景根据长链接生成一个短链接。 根据短链接解析出长链接。实现方式如何实现这个功能呢?也许你会考虑实现一个算法,将长链接转成短链接,实现长短的一一对应。然后再实现逆运算,将短链接换算回长链接。当然这种算法是不可能存在的。如果有那你就发现了世界上最牛的压缩算法了。其实短链接的实现并没有一个固定的算法,主要的原理就是把长链接通过一定的规则得到一个短链接,然后把长链接和短链接的关系记录在数据库中(你可以使用关系型数据库或者非关系型数据库NoSql)。当用户访问短链接时,短链接服务根据短链接查找

2020-06-15 17:58:25 586

原创 sftp 上传文件_2

1 官方API查看地址(附件为需要的jar)http://www.jcraft.com/jsch/2 api常用的方法:put(): 文件上传get(): 文件下载cd(): 进入指定目录ls(): 得到指定目录下的文件列表rename(): 重命名指定文件或目录rm(): 删除指定文件mkdir(): 创建目录rmdir(): 删除目录put和get都有多个重载方法,自己看源代码...

2020-06-08 17:19:53 740

sublime-text-build-4143-mac

非常好用的test文件!!!

2023-06-07

用户画像02:业务数据调研及ETL.md

整个用户画像(UserProfile)项目中,数据、业务及技术流程图 表的结构 数据库Database

2020-06-04

用户画像01:用户画像概念、项目概述及环境搭建.md

- **用户属性的研究侧重于显式地搜集用户特征信息**,主要体现在社会化标注系统领域,通过社会化标注系 统搜集比较全面的用户信息,用于多方位的了解用户。

2020-06-04

用户画像系统_【标签体系】信息.xlsx

用户画像对某一类特定群体或对象的某项特征进行的抽象分类和概括 用户画像方向 目前的用户画像研究主要集中在三个方向上:用户属性、用户偏好和用户行为三个主要方面。

2020-06-04

大数据优化.pptx

大数据项目中优化方向 1 代码优化 2 软件系统配置优化 3 操作系统优化 4 硬件优化 5 网络优化 集群的性能优化

2020-05-13

Scala文档.docx

scala是运行在JVM上的多范式(多种编程方法)编程语言,同时支持面向对象和面向函数编程 早期,scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。

2020-04-13

Yarn日记.docx

什么是Yarn : 通用资源管理系统和调度平台 Yarn特点: 1、支持多计算框架 2、资源利用率高,运行成本低,数据共享。 Yarn的意义: 降低了企业硬件的成本(多个集群变成一个集群),减少了资源的了浪费,运营成本低。

2020-04-03

Redis命令日记.docx

Redis是一个使用C语言编写的key-value开源的NOSQL存储系统。不支持SQL语句。redis数据存储在内存中,支持持久化(将数据写入硬盘)

2020-04-03

Kafka知识点.docx

Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper

2020-04-03

Scala样例类练习.docx

1创建一个demo1的单例,在demo1中创建一个样例类名字为student1,成员变量为name:String, age:Int 创建主方法实例化student,并传参数(“xiaoming”,20),打印输出student1对象到控制台 创建一个demo2的单例,在demo2中创建一个样例类名字为student2,成员变量为name:String, age:Int 创建主方法实例化student2,并传参数(“xiaoming”,20),修改student2对象的age=25,打印输出student2对象到控制台等等

2020-04-03

Spark笔记1.docx

什么是Spark? Spark特点?Hadoop与Spark的对比?Spark运行模式?Spark安装部署 standalone集群模式启动

2020-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除