自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pengpenhhh的博客

大数据程序猿的经验分享,希望能认识更多的同行者~

  • 博客(23)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据治理-1. 数据集成-总体方案

数据集成是广义上数据治理的第一步,只有成功的接入数据,才能谈下一步的治理,资产,应用,共享等。后面会针对集成的各种方式做实际操作的展开,一边记录,一边总结各种集成方式的具体遇到的问题和优缺点。

2023-02-08 15:01:21 360

原创 Virtualbox主机与虚拟机相互访问

Virtualbox主机与虚拟机相互访问

2022-10-14 11:10:20 3770 1

原创 scala-tools mavent 打包出错原因

scala-tools 打包出错问题

2022-07-24 14:35:24 503

原创 【springboot maven 本地包依赖】

springboot maven 本地包依赖一. 注册到本地maven(推荐)优势: 可以二次依赖,重复使用劣势: 同时使用这个工程的人,需要重复在本地安装这个包首先在本地安装本地依赖包(只需要安装jar包,如果有resource包,不需要重复安装)mvn install:install-file -Dfile=e:/openplatform-web%2Fopen-sdk-java-2.0.2.jar -DgroupId=com.seewo -DartifactId=open-sdk-jav

2022-03-21 19:56:04 1017

原创 日志采集展示系统grafana+loki

文章目录背景一、Grafana部署1.1 上传安装包1.2 登录grafana平台二、Loki部署2.1 修改配置文件2.1.1 修改loki中心节点配置文件2.1.2 修改loki采集日志节点promtail配置文件2.2 部署2.2.1 部署中心loki2.2.2 部署loki采集日志节点promtail(多节点)三、配置grafana连接loki3.1 按照图中点击 Configuration -> Data Sources3.2 添加loki数据源3.3 配置loki中心节点ip端口,save

2021-05-18 20:51:48 2926 1

原创 conda install 安装很慢并且Solving environment: failed with initial frozen solve.

问题描述:首先 安装 Anaconda,用来使用python3这时候需要自己的安装一些依赖包使用 conda install 安装很慢并且 报错 “Solving environment: failed with initial frozen solve.”原因分析:1.可能是由于未使用国内的镜像源,所以非常的慢2.可能由于conda是比较低的版本,需要更新解决方案:针对上诉两个肯能的原因有解决方案如下更改国内源vim ~/.condarcchannels: - https

2021-05-11 11:17:03 4544

原创 页面nginx 404报错

项目场景:上线了一个软件,并且使用nginx去代理,希望通过域名去访问问题描述:页面报如下错误原因分析:404 Not Found 是找不到这个服务的地址,并且有nginx的标识,说明 nginx 代理的ip端口配置的有问题解决方案:找到nginx 部署的那台服务器如果不知道 nginx 部署在哪个路径下可以执行如下指令ps -ef |grep nginx得到如下结果,可以看到nginx的部署路径然后进入nginx的配置路径,找到对应的 nginx.conf 文件找到web

2021-05-08 14:37:51 8606 1

原创 VirtualBox设置静态ip和主机访问

文章目录背景1.硬件环境2.网络连接种类一、网络选择二、实施步骤1.新增 仅主机(Host-Only)网络2.配置虚拟机网络3.虚拟机内部设置4. 防火墙设置总结背景1.硬件环境使用的虚拟机是VirtualBox,因为这个占用资源更少安装的机器是Centos7 版本主机的ip不是固定的,自动分配2.网络连接种类由下图可以看到,网络有很多种选择,但是我们常用的是这是三个网络地址转换(NAT)、桥接网卡、仅主机(Host-Only)网络为什么有这些网络选择呢,因为每种网络有着自己的特点,

2021-04-08 14:03:11 2940 1

原创 平台软件部署总结

平台软件部署总结文章目录平台软件部署总结背景问题及建议解决方法1) 软件整体上层设计缺失解决建议2) 数据库初始化脚本多库报错和不可重复执行背景最近接到了一个工作,就是有一个庞大的系统,大概约有16个大的功能项,每一个功能项都有而很多不同部署包,有jar,有zip,有war 等等,依赖有JDK,mysql,nginx,还有一些其他的通用依赖包,复杂且繁杂,部署的很痛苦部署过程也遇到了一个个的问题,都记录一下问题及建议解决方法1) 软件整体上层设计缺失我部署的这些软件包,都是很多团队,经过4-5

2021-03-31 20:35:39 677

原创 数据仓库实际工作记录 -- 链路长短选择

1.背景工作中遇到个问题,那就是我们有了一批数仓 dw层的表,这时候需要开发一批dm表,用于下发数据,大约有30+张表,互相之间是有依赖关系的比如:有一张 t_org 组织关系表,用来确定下发的学校是哪个区域的其他的表需要下发这个区域 A,都需要关联这个表这时候我们就有两个选择每个表都关联 t_org 并且筛选 区域 A先生成一个下发表 dm_org ,之后的表都关联 dm_org看起来好像影响都不大,都能成功下发,方案二貌似还能减少数据的筛选关联,提升效率2.结论及说明其实在工作中

2021-03-30 20:27:04 162

原创 嘿!大数据 呵! 小文件,对小文件重拳出击!

大数据平台小文件解决办法1. 背景平时只是在大数据平台上写 sparksql 不关注大数据平台文件,今天看了下,发现每个表对应hdfs上的文件数量很对,而且大小不一我们知道这有两个影响:文件数量越多,查询扫描的效率越低文件大小不一,会导致数据倾斜,降低查询效率所以小文件越来越多的问题,急需解决2.解决办法由于我是采用写sparksql的方式生成这些表数据的,所以解决办法也是针对sql脚本的,如果是spark程序也是类似针对两个影响1)第一拳,减少小文件数量set spark.sql.

2021-03-30 19:50:00 109

原创 rpm和yum卡住

rpm和yum卡住问题描述今天使用yum 安装 一个软件的时候,发现一只卡在yum 这一步, 没有任何报错信息, 且无法 ctrl + c 终止,只能通过后台 kill -9 杀死问题解决1. 通过添加 -vv 查看日志 yum -vv + 软件包会发现卡在 loading keyring from rpmdb,也就是load DB的时候出现问题了这个基本原因就是安装的时候并没有安装好2. 删除(或移走) rpm的db文件并重建# rm -f /var/lib/rpm/__db*# rp

2021-03-18 19:08:42 545

原创 linux启动tomcat端口占用

linux启动tomcat端口占用背景:当我们启动tomcat的时候,经常会遇到端口占用的问题,即我们启动的tomcat需要占用一个端口,然而现在这个端口已经被另一个程序占用这时候我们就需要 定位这个程序 -> 判断是否可结束 -> 结束/使用另外的端口解决办法:1. 执行命令netstat -nlap |grep 8888参数解释:-n 拒绝显示别名,能显示数字的全部转化成数字。-l 仅列出有在 Listen (监听) 的服務状态-a (all)显示所有选项,默认不显示

2021-03-09 20:11:18 1028

原创 windows本地启动tomcat端口占用

windows本地启动tomcat端口占用报错信息:The Tomcat connector configured to listen on port 8080 failed to start. The port may already be in use or the connector may be misconfigured解决办法:搜索 命令提示符(cmd), 然后以管理员权限运行, 防止有的进程无权限杀死执行以下命令netstat -aon|findstr 8080

2021-03-09 19:51:58 150

原创 解决mysql特殊字符或者Emoji表情插入报错问题

解决mysql特殊字符或者Emoji表情插入报错问题原因:MySQL的utf8编码最多3个字节,Emoji表情或者某些特殊字符是4个字节,所以数据插入不了,需要修改编码。在MySQL 的"utf8"实际上不是真正的 UTF-8。"utf8"只支持每个字符最多三个字节,而真正的 UTF-8 是每个字符最多四个字节。MySQL 一直没有修复这个 bug,他们在 2010 年发布了一个叫作"utf8mb4"的字符集,绕过了这个问题。解决办法:1. 查看mysql现在的字符集show variabl

2021-02-25 17:45:27 1480

原创 kylin性能优化

kylin性能优化文章目录kylin性能优化一. 优化 cube设计1. 来源优化2. 输出优化3. 参数优化4. 维度转度量优化5. 设计优化(1)Aggregation Groups (聚集组)(2)Rowkeys(3)Mandatory Cuboids (强制组合) 用的不多,再学习(4)Cube Engine (构建引擎)(5)Advanced Dictionaries(6)Advanced Snapshot Table (从未用过)(7)Advanced ColumnFamily二. 优化 Cu

2021-01-18 16:43:10 1275

原创 快速定位mysql是否走索引

快速定位mysql是否走索引文章目录快速定位mysql是否走索引问题背景:当我们查询sql的时候很慢,不知道什么原因,是否在走索引解决办法步骤1. 依赖表结构及测试数据:2. 基本关联查询sql3. 查看执行计划4. 增加索引问题背景:当我们查询sql的时候很慢,不知道什么原因,是否在走索引解决办法步骤1. 依赖表结构及测试数据:CREATE TABLE `student` ( `student_id` int(11) DEFAULT NULL, `student_name` varcha

2021-01-14 20:40:34 1154 1

原创 hive 内部表和外部表的区别

hive 内部表和外部表的区别内部表没有external 关键字内部表可以不指定 location关键字,当然hivesql执行外部表是也可以不指定,但是一般不这么用,sparksql,执行时不指定会报错内部表删除表时,直接删除元数据以及实际数据,外部表则只会删除元数据,hdfs上保留数据,这一条会衍生一些东西如果建立临时表,一般使用内部表,这样可以直接删除数据,不至于导致数据多余删除外部表时,再create table ,然后insert overwrite 时,会使数据重复一倍

2021-01-14 19:13:22 942

原创 kylin报错信息解决

kylin报错信息及相关解决办法一.报错信息:CUBE001: http code not 200, uri http://xxxxxxx build, code 500, message Segments overlap: xxxxx[FULL_BUILD] and xxxxx[FULL_BUILD]解决方法:查看monitor里面有没有error或者stopped状态的同名cube,如果有就discard掉,重新执行如果在monitor里找不到error或者stopped状态的cube

2021-01-13 20:08:22 693

原创 redis清除指定前缀缓存

redis清除指定前缀缓存问题描述:由于线上使用的架构中经常会有缓存系统,最常用的就是redis,但是很多时候线上的数据更新了就希望能够立马去验证,这时候缓存就需要清除问题解决:登录redis所在服务器确定需要清除缓存的 端口号,如果有设置密码,则需要确定密码确定redis是否设置了环境变量,能否直接执行, redis-cli -p 6399 -a ‘QAZX!@#43’ 尝试登录(注意password 需要用单引号,否则会报错)登录完之后, 使用 key * 命令来确定redis缓存

2021-01-13 18:41:18 2459 2

原创 insert overwrite自我覆盖的spark替代语法

insert overwrite自我覆盖的spark替代语法1. 问题背景:当我们使用spark-sql的时候, 使用 insert overwrite table A select * from A 会报错2.解决办法:可以通过临时表的方式解决问题create temporary view TEMP_A asselect * from A;insert overwrite table Aselect * from TEMP_A; ...

2021-01-12 17:45:48 2356

原创 大表关联小表hint和explain的使用

spark中大表关联小表hint和explain的使用1. 问题背景:在工作中中遇到个问题,那就是一个 大表A left join 一个很小的表 B查询速度总是很慢, 就想着怎么去优化,于是就查了些资料,得到可以通过设置 broadcastjoin的方式来优化,但是呢,这种方法很多都是使用scala的语法去写dataframe的方式实现,但是这太大费周章了,于是找到了hint的方法2. spark关联方式的知识(broadcast join、shuffle hash join和sort merg

2021-01-12 15:55:17 791

原创 超大数据量UV类和PV类问题解方案

超大数据量UV类PV类问题解决方案背景技术使用:基于大数据平台的 spark-sql,有基础能力去处理百亿级数据表问题背景:随着大数据平台和数仓的建设,以及业务极大增加和日常积累,会让单表达到百亿级别这时候就会出现两个典型的场景,就是标题所说的UV场景和PV场景名词解释UV类问题UV 英文就是Unique visitor 即这个网站有多少个访问者,这里就有个用户去重的问题,多次访问需要去重拓展一下就是针对数据表维度进行 count(distinct ) 计算的一类场景,不只是限制在用

2021-01-11 20:02:08 1137

Sublime Text 3.zip

Sublime Text 3.zip

2021-05-05

PBIDesktopSetup_x64.exe

PBIDesktopSetup_x64.exe

2021-04-09

Navicat Premium 15.zip

Navicat Preminm 15 好用的数据库连接客户端,可以连接多中常用数据库,mysql,mongodb等

2021-01-15

scala-intellij-bin-2020.2.5.zip

IntelliJ IDEA scala插件,给网络不好的下载本地直接安装

2021-01-15

windows安装spark2软件包.zip

windows安装spark2软件包 包括: 1.spark-2.3.0-bin-hadoop2.7.tgz spark的压缩包 2.scala-2.11.8.zip scala的压缩包 3.hadoop-2.7.1.tar.gz 基础hadoop包 4.apache-maven-3.6.3-bin.zip maven压缩包 5.winutils-master.zip 解决windows下spark的问题(可以不用)

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除