自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 问答 (6)
  • 收藏
  • 关注

原创 关于奇葩指标计算-历史订单数据变动

第二种:销售系统增加订单历史变动表 ,主要字段修改时间,商品类型,去重后与订单表关联获取订单时间,研究后也无法满足变化的计算逻辑,无法追溯到商品类型变化后应该怎么把原来的商品类型减掉,或者说成本太高不能选。背景:由于某些特殊原因,销售经常不经确定更改商品类型,导致月累,年累不连贯,结论:增加一个订单变化指标对应这样的变化,困难点,订单跨日改车系,根据需求反推销售系统需要增加什么结构的数。第一种:要求让销售系统记录(操作时间及是更改商品类型的操作)但这样销售系统就要去判断订单有没有被改动,比较麻烦。

2024-03-04 10:50:10 171

原创 作为项目经理如何开展BI项目

作为项目经理开展BI项目的要点

2022-07-15 17:58:21 505 1

原创 2021年3月份数据仓库/数据治理/数据开发/BI报表面试总结

从2020年年底开始面试,到三月份差不多面试了10家左右,现在总结一下面试碰到的问题以及个人总结的策略。数据仓库面试问题总结:1.数据仓库的分层,每层的具体划分?2.数据仓库的逻辑建模你们是怎么做的?这里一开始我是懵的,回答的一团糟。后面查了下资料这个问题应该往维度建模或者E-R图建模这些方向走会好点,主要是提现杂乱无章的数据,你们是根据什么分层归纳分类,怎么建立好数据处理流程。现在我应该会这么答:"目前我们都是采用维度建模这种方式,根据部门或者业务线划分出各个主题,围绕这些主题,根据业

2021-03-12 13:42:17 3703

原创 FileReader的read方法疑问及解答

后面点击进入方法里面找到类似的实现,system是一个final类,往下点我就看不到里面的实现了

2021-01-07 15:50:07 775

原创 记一次sql查询效率问题,待分析

问题:sql语句在外面包了一层select * 之后,整个的查询效率变得很低,explain之后发现id=1的记录变成了一个rows=393085629972的记录,不知道从哪里来的。分析:462861*724*1173刚好等于393085629972,在select * 的下一层B确实有两个left join ,可能就是这个导致的。解决:我没办法分析出更细层的原因,为什么select * 一个left join 的子查询后会有笛卡尔积出现。之前一直以为就是拿着子查询的结果直接出来就行了,没有想到.

2020-12-29 16:07:02 225

原创 工作感想:记一次需求上线延迟

情况概述:产品,前端,后台,数据四人;目标是一个星期内完成三个查询报表。结果:上线延迟一个星期,数据查询有些慢,待优化过程存在的问题:1.由于前后端工作需要交互,有些功能由前端实现比较方便,因此大部分的开发工作压在了前端。后台只负责存储数据。前端工作较大。2.产品与开发之间没有沟通清楚:整体业务流程没有被正确的理解,导致所有接口都写错了。3.开发之间求快,细节设计没有同步:比如,为了不改变代码,改了数据库的类型,导致命名与正常理解不太接近。开发之间配合也不到位,整体为了追求效率,导致更多

2020-06-15 14:34:16 307

原创 记一次数据仓库从0到1的实战

去年进公司的时候,仓库是基于清单数据,用的是clickhouse数据库,并没有进行分层。所有的报表都是基于清单数据的查询,所有的报表sql都非常的复杂。1.原有的仓库其实不能说它是仓库,只能是一个数据库,基本上就是利用contrab进行任务调度,每个任务之间隔开一点时间,如果有依赖的话。出现的问题:由于用户表以及一些事件表经常需要进行清洗,采用的是从一张表到etl完之后再导到原来的表,...

2020-04-01 16:01:59 1548 3

原创 http请求中的post和get到底是什么

最近项目不是很忙,看起了别人写到java代码。后端返回数据都是用一个叫payload的类,然后就就引出了http相关的疑问。一、get和post1.什么是get之前浅浅的学到get方法不安全,post方法安全。所以要用post。后来百度了发现好像不是这么回事。get,就是向某个地方获取一些数据,这个获取的过程可以理解为一个简单的查询,没有造成什么影响,专业名词叫做“幂等”,意思是:...

2020-04-01 15:29:21 13450

原创 kylin安装问题记录

总体来说,kylin安装很简单,但是在刚安装好的hadoop测试集群上总是问题频发。1.连接不上0.0.0.0 :10020端口org.apache.kylin.engine.mr.exception.MapReduceException: Exception: java.net.ConnectException: Call From hserver1/ to 0.0.0.0:1002...

2019-04-10 17:29:27 667

原创 sqlserver查询突然变得很慢

今天早上上班发现应该在周末执行完的脚本执行到了现在,靠着自建的etl日志表发现某个大表的查询 修改速度特别慢 。后来重新启动了数据库(在控制面板的服务里面重新启动sqlserver),就好了。猜测原因:可能是因为系统的临时数据库tempdb满了,或者是被阻塞之类的,在活动件事器里面看到我的那个进程一直在报RESOURCE_SEMAPHORE 等待状态 ,阻塞他的进程是tempdb数据库的,...

2019-03-04 19:01:25 20228

原创 网络知识小记

今天听到开发那边传来的桥接方式比较安全,请求到网关这类的名词。好歹之前做过点开发,关于这点知识很想知道它们到底是怎么样工作的,所以就搜了一下。近期还听到了swagger,从swagger又搜索到了RESTFUL设计,唉,明明不想做开发了还是总想去搞明白这些东西,到底是什么在作祟。1.冲突域:冲突域就跟他的名字一样,就是有几个数据报文想在同时通过一条通道,但是通道只能容纳一个数据报文通过,所...

2019-01-15 18:30:31 150

原创 SSRS发送重复邮件

这个问题最终还是没解决,在sqlserver论坛查的原因无非是有台机复制的本机的镜像然后开了服务所以会一直收到邮件;一种是:由于每一条订阅都在sqlserver 代理有自动生成的作业,可能是作业没有被正常的执行。这两块我都查了,解决不了我的问题。下面是记录。      接收了一个项目,用的是sqlserver 的套装,其中有用SSRS订阅邮件服务的。后来邮件的接收人反馈收到了重复的邮件...

2018-12-17 11:27:08 524

原创 sql技巧篇

数据库针对sqlserver,其他数据库可能会有点变化 1.sqlserver 逐行累加CREATE TABLE [dbo].[User](    [Id] [int] IDENTITY(1,1) NOT NULL,    [Name] [nvarchar](20) NULL,    [Score] [int] NULL)-- 逐行累加SELECT t2.A, SUM(...

2018-12-13 09:43:31 177

原创 工作到现在的一些感想

最近工作方法上遇到一些问题。一、换公司的感想       面对这这些杂乱的sql代码,不知道他每一步要做什么,注释都写得那么吝啬(之前那个大佬你别惜字啊)。然后我突然想起了之前刚出来实习的时候,带我的那个人给我看的他们的sql代码。都是txt文件,开头有序号,有大概解释。给人的感觉非常的清楚,至少看注释是能看懂的。结束实习离开那家公司后,时间太久了我差点忘了这样的工作方法。今天碰到了问题才...

2018-12-10 16:42:37 2731 3

原创 刷机方法简介

刷机的方法与步骤(针对华为)分为线刷、卡刷、三键强刷1.线刷:线刷指的是利用数据线连接电脑,用刷机软件刷系统。此情况下手机要能进入fastroot模式,并且已解锁。这个网上有很多软件跟教程。2.卡刷:指的是利用recovery模式(电源键+音量键上)刷机。首先要有本机型号对应的刷机包,通常为压缩包形式,里面是有文件夹。然后进入recovery模式,选择update from sd。...

2018-10-24 14:25:09 3406

原创 我的数据分析入门整理(一)

最近换了公司,方向更偏分析这边,业务是电子商务相关,有很多销售的数据。整理一下他们一般会看的数据1.销售数量:某个商品,某个活动的销售数量,日销量,月销量;2.用户量:某个活动的用户量,新客及老客2.1.次日购买率跟次月购买率这两个数据有两种法:新客的次日购买率跟次月的购买率,老客的次日购买率跟次月购买率。某个活动的次日购买率跟次月购买率,比较大环境的数值来判断该活活动有没...

2018-10-24 13:48:41 695

原创 使用sqlserver management studio 对表增量导入数据

1 打开studio的工具,选中数据库——任务 ,选择导入还是导出2.写完地址用户密码后,下图位置选择第二个,写sql来读取数据3.写好sql,注意:如果你的目标表有自增的主键的话,该字段不能写到sql语句中,不然会报错4.在这一步,注意要选择你所需要的表5,.剩下的一步一步next就行了...

2018-10-24 10:42:51 3195

原创 sqlserver 中ETL常见技巧整理

时间戳并不是一个date类型的字段,而是一个二进制的,数据库自动生成的字段,记录了在数据库里的时间。可以用来作为增量更新的条件,同时也可以发现查询完数据后再查一次,数据在这段时间有没有发生改变https://www.cnblogs.com/tianguook/p/3830234.html@@Rowcount 是指做完crud的表,影响的行数,set @ValidRecordCount ...

2018-09-25 18:06:46 2400

原创 sql数据量大的排序问题

刚好面试提到这个问题,深感自己基础薄弱。问题:sql数据量大,内存无法满足,如何进行排序?网上搜不到具体的答案,也不知道总结的对不对。很多帖子都提到一个外部排序,采用多路归并算法。外部排序是指将数据存储在外部磁盘而不是内存中,内存中的排序是内排序。多路归并算法,简单来说就是将要排序的文件拆分成一个个小文件,然后对针对每个小文件排序,排玩序的小文件组成顺串,在针对一个一个顺串排序载入内存...

2018-08-01 18:49:23 2869

原创 关于新浪微博这个产品

本人平常只刷微博,很少发微博。对新浪这家公司没怎么关注。今天突发奇想想发条有视频的微博却试了好一会,才反应过来,我对这种生活中很常见的东西都不了解,有点小诧异。所以有了这篇博文。本人之前没接触过产品,只能算半个IT人。很多材料都是上网找然后整理的,做一个初步的了解。新浪微博目前是国内最大的消息分享平台,他更倾向有做社交网络而不是媒体。我上新浪科技的公司介绍看了一下,感觉新浪有一大半像一家新闻媒体公...

2018-07-12 20:07:18 1122

原创 linux 安装oracle常见问题-安装时界面中间只出现一道杠

之前装的oracle,写在另一个平台上https://segmentfault.com/a/1190000014235221

2018-07-11 17:05:36 4656

原创 hadoop环境搭建总结

这段时间公司尝试使用了中科院开源的easyML来做项目,期间遇到的一系列坑爹问题,在这里做下记录。由于docker环境不适合该项目,所以大佬决定在外面弄个新的,方便操作的环境,于是就有了下面一系列问题。1.网络:第一个绝对是网络。我们用的是虚拟机,老是出现网络不通的现象。ping通网络的正确姿势如下:修改该虚拟机的mac地址,在“虚拟机”-“设置”-“网络适配器”-“高级”,在mac地址那里,点击...

2018-07-11 16:35:52 1716

原创 常用oracle存储过程学习总结

1.nvl,decode等函数2.使用一个变量(true or false)作为控制程序是否执行的标志3.脚本要按照自己能理解的方式分类和存储,勤快点,常用的要好好记下并写好备注,避免后期想要用的时候还得花时间去理清逻辑4暂时...

2018-07-05 19:13:27 164

原创 解决oracle客户端中文乱码

基本情况:linux服务器上的oracle刚装好导了点数据进去,在自己的电脑上用plsql进去查询时乱码接下里进入正题。1.乱码原因:window,sqlplus,oracle字符集不一致导致的详细解释请看:https://www.cnblogs.com/bingo1717/p/7803359.html2.解决思路将sqlplus与操作系统的编码设为一致状态3.解决方法1.对于linux终端,查看...

2018-04-13 12:17:44 10047 1

原创 spring学习笔记-- aop及ioc的理解

ssm这个框架之前只是在用,并没有对齐机制及理论有深入的了解,所以做一篇笔记总结一下。1.为什么要用spring 及springmvc?1.1先理解aop,iocIOC就是典型的工厂模式,通过sessionfactory去注入实例。这篇文章有很好的解释:https://www.cnblogs.com/xdp-gacl/p/4249939.html,这篇文章大方面上讲解了控制反转。简单来说,你在写一...

2018-03-06 23:54:35 205

原创 oozie编译失败:Apache Oozie Core .................................. FAILURE

使用版本:oozie4.3,hadoop2.7.4可能是因为hadoop版本太新,老是报:类型为LoggingEvent的变量 firstLogEntry[ERROR] /oozie-4.3.0/core/src/test/java/org/apache/oozie/sla/TestSLACalculatorMemory.java:[818,32] 错误: 找不到符号这些问题,后来

2018-01-25 16:20:43 1251 1

原创 SASL authentication not complete ,java操作hive报错

java.sql.SQLException: org.apache.thrift.transport.TTransportException: SASL authentication notcomplete做完每一步时一定要关闭连接再开启连接,才能正常运行。比如我上一步插入数据到hive表,就需要关闭连接,重新开启连接再进行下一步hive操作。public class FileToHive

2018-01-24 15:05:59 8948

原创 踩过centos端口开放的坑

一般来说,在etc/sysconfig/iptables中添加-A INPUT -p tcp -s 10.22.1.108 --dport 3306 -j ACCEPT就可以了,但是要注意,特别是装在虚拟机的linux系统:在etc/hosts文件中,你的ip要补充进去,即10.22.1.123    myhostname ,因为127.0.0.1 刚好有对应你的hostname,linux默

2017-12-28 15:00:27 586

原创 虚拟机:centos上不了网的解决

百度了很多方法,结合自己的情况整理了一下。键入ipconfig出现两块网卡,lo跟virbr0,开始以为是用虚拟机装系统的时候选错选项没有生成网卡,后来查了下virbr0是虚拟网桥,不是他的原因。找到命令ip addr ,发现本机有两块网卡lo跟ens33,service network restart后报了事变,根据提示发现发现是mac地址对不上,将ip addr

2017-12-20 14:55:09 1557

原创 ajax报内存溢出,想不明白

犯了一个低级错误,json数据不对结果前端控制台报了栈溢出,至今想不明白。Uncaught RangeError: Maximum call stack size exceeded。

2017-10-12 14:47:23 1130 2

原创 linux分区满了,如何进行扩容

图片中可以看到挂载点“/”的利用率移到100%,空间不够,所以要对其进行分区。1.     先进入虚拟机设置里增大磁盘空间注意:将25改成50,以扩大空间。这里一定要写比25大的数,因为他是“增加到”50GB,而不是“增加了25GB”2.     下图可以看到,硬盘空间增大为53.7GB,在设备那里可以看到有两个分区,sda1跟sda2(请忽略sda3)。接下来增加一个分区。键入命令:fdish ...

2017-06-16 15:23:04 118289 12

原创 SEO的大概步骤

本人近期建了一个新站,根据boss的要求要提升网站的排名,所以整理了这篇笔记。1.什么是SEO?简而言之,就是贴合搜索引擎的规则,调整网站结构,让搜索引擎喜欢,进而提升你网站的排名。2.什么是排名?就是搜索出来网站的顺序。3.怎么做SEO? 1)对于内容:利用meta标签,增加keyword,description,title等,这是决定排名顺序的关键,但是重复写多几个ke

2017-03-27 14:38:57 446

原创 装双系统(win8+ubuntu)问题总结

第一次按照了下面的网址装了双系统ubuntu,http://www.jianshu.com/p/2eebd6ad284d过程基本上是照着他做的,基本没错,但是我设置完easyBCD后重启进入另一个系统,发现进不去,黑屏光标一直在闪。后来才发现高版本的Ubuntu在easyBCD里打的引导设置应该如下类型这里应该设置为GRUB2.。具体网址:http://www.cnblogs.co

2016-12-22 12:08:28 491

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除