自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 问答 (1)
  • 收藏
  • 关注

原创 MySQL对group by原理和理解

写在前面的话:用了好久group by,今天早上一觉醒来,突然感觉group by好陌生,总有个筋别不过来,为什么不能够select * from Table group by id,为什么一定不能是*,而是某一个列或者某个列的聚合函数,group by 多个字段可以怎么去很...

2019-06-03 17:57:18 25288 39

原创 项目管理心得

遇到大变更可以考虑重新启动一个新项目,遇到小的项目变更,也需要等到本期验收,项目上线后再说。类似面向对象的向上转型,狗要喝水,猫要喝水,人也要喝水 -》产生方法 动物需要喝水。但实际用户需要的是更快的交通工具,向上提炼需求,从而去完成更大的价值实现,创造更多的价值。①不要沉浸在细节里,要针对业务的解决方案才是客户真实的需求。②项目中期:先要分析变更的影响,原则上尽可能与相关人员沟通,取消变更(如果按照需求,我直接找一匹马就可以了,这只能达到完成目标。生米煮成熟饭,吃是这盘菜,不吃也是这盘菜。

2024-06-26 20:19:04 274

原创 财经进销存项目PRD 参考

预算管理:系统需要能够对公司的预算进行管理和监控,包括预算编制、预算执行和预算分析等功能。库存管理:系统需要能够对公司的库存进行管理,包括库存查询、库存调拨、库存盘点等功能。商品管理:系统需要能够对公司的商品进行管理,包括商品编码、名称、价格、库存等信息。采购管理:系统需要能够对公司的采购进行管理,包括采购订单、采购单、发票管理等功能。销售管理:系统需要能够对公司的销售进行管理,包括销售订单、销售单、发票管理等功能。数据集成:系统需要能够与公司的其他业务系统进行数据集成,如ERP、CRM等系统。

2024-01-03 09:43:40 186

原创 Axure9 使用及开发细节

主要是用来做左侧菜单栏的,主要的的步骤1.拖一个Node Tree出来 2.添加删除节点即可。3)右键这个数,编辑图标->导入一个图标->显示所有节点图片。↑以上细节,具体参看某淘客服发的链接,这里不具体附上了。4.汉化包,lang文件导入安装地址即可。2)右键这个数,编辑数属性->√显示图标。3.通过账号密码,生成一个key,完成。1)先有个16*16的icon,自行去。2.然后通过淘宝几块钱购买一个账号。PS:想要给itme附上图片,1.首先需要下载Axue9。

2023-07-17 17:14:42 680

原创 SQL心得(下)

SQL心得(下)

2022-06-09 17:35:56 244 1

原创 Axure学习

P1章节:什么是Axure原型1.Axure的软件目的1)软件功能复杂,用户需求多2)向用户演示产品原型,挖掘需求3)项目组(产品、设计、研发)之间降低沟通成本2.分类1)草图原型(记录灵感)2)低保真原型(系统大致结构、交互效果)3)高保真原型(视觉、体验接近真实)...

2022-01-23 19:30:53 844

原创 Python心得

1.loc函数和iloc函数loc[n, :] #n行的所有数据 , n代表行数 例如: loc[0, :] #第0行的所有数据loc[:, 'days'] #days列的所有数据 loc[:, 'type'] #type列的所有数据2.data_Pivot函数 属于Pandasdata_Pivot[(data_Pivot.days>='2021-10-28')&(data_Pivot.days<='2021-10-29')]...

2021-11-05 13:36:04 986

原创 Mysql实战 学习笔记

1.change buffer2.数据页3.内存/硬盘4.redo log5.InnoDBredo log 主要节省的是随机写磁盘的 IO 消耗(转成顺序写),而 change buffer 主要节省的则是随机读磁盘的 IO 消耗。

2021-11-04 11:05:09 169 1

原创 机器学习心得

1. 机器学习的概念:解释1:机器学习是一门通过编程让计算机从数据中进行学习的学科。解释2:机器学习是一个研究领域,让计算机无须进行明确的编程就具备学习能力。解释2:一个计算机程序利用经验E来学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称之为机器学习。2 . 我理解的过程:解决一个问题-> 发现规律-> 定义规律-> 完善规律-> 通过计算机语言(编程等) -> 让机器进行同样的思考和学习 ->并解决这个问题机器学习擅长处理对

2021-10-27 14:50:15 9501

原创 预测算法模型

当前探究的是快递件量预测基本过程一、预测基本过程1.底盘数据(RawData)2.特征工程3.特征评估4.模型组件5.模型提升二、各过程解释1.数据底盘从最原始的数据表或者excel中,通过sql或者hive手段,初步处理数据,形成底层数据,dwd明细或者dws轻汇包含:运单特征、客户特征、运力特征、运营数据特征、预算指标特征、节假日特征、营销活动特征、平峰高峰特征、区域特征(全网/业务区/网点/细分地域 小区学校之类)、经济市场/特征、企业画像,用户画像,大客户特.

2021-09-26 11:26:55 852

原创 Scala 心得

能够继续使用java的语法(部分) scala独特语法(或者从java包装起来的类库):例如元祖等Tuple、Map 比java语法有增强: 偏函数、 函数式编程、 函数的柯里化、 高阶函数、 将函数作为参数传递 4. scala的语法是对java的类或者接口做了包装,底层还是java 5.Java和scale关系图解...

2021-08-08 22:49:57 264

原创 Excel心得

重点:排序、筛选、格式化为表格、交叉分析筛筛选器、设定格式化的条件1.获取日期:control+; --获取年月日control+‘’ --获取十分秒2.冻结窗口3.分割视窗4.自定义排序,并提供内部降序5.自定义清单的设置,可以完成自动补全5.自定义颜色筛选排序6.自动增加列,直接tab7.交叉分析筛筛选器(插入->切片器) 多维筛选8.设定格式化的条件(给筛选的枚举打上颜色等,路径:开始->条件格式↓->突出显示单元格规则,其中还包含额外:数据条,色阶,图表集

2021-07-02 23:24:35 748

原创 原创 数据仓库工具箱-学习笔记8-处理缓慢变化维度属性

2.5处理缓慢变化维度属性

2020-10-21 16:22:12 327

原创 数据仓库工具箱-学习笔记7-使用一致性维度

2.4使用一致性维度维度建模目的:集成来自不同商业过程的数据,且定义了简单而强大的解决方案。一、一致性维度不同的维度表的属性具有相同的列名和领域内容时,称维度表具有一致性。有利于事实表的重用,减少开发开销和重新创表、数据对不齐的开发症结。二、缩减维度在特定的需求下,我们需要进行缩减维度,由基本列or行的子集构成。例如按月和品牌进行预测报表,我们不需要将销售相关的终极原子的数据拉出来,只需要使用聚合即可。三、跨表钻取首先要了解什么是钻取:钻取是改变维的层次,变换分析的粒度。它包括向

2020-09-18 17:11:43 1576

原创 数据仓库工具箱-学习笔记6-维度表技术基础

## (Chapter2 Kimball 维度表技术基础)适用于所有维度表!一、维度建表结构二、维度代理键三、自然键、持久键、超自然键四、下钻五、退化维度六、非规范化扁平维度七、多层次维度八、文档属性的标志与指示器九、维度表的空值属性十、日历日期维度十一、扮演角色维度十二、杂项维度十三、雪花维度十四、支架维度...

2020-08-19 16:57:04 745

转载 Hive 在指定位置添加字段

本文转载至:https://blog.csdn.net/u010002184/article/details/90143932此处仅为mark,方便查看。捣腾了半天,终于找到解决方案了,hive定时任务原表添加字段的方法分两步,先添加字段到最后(add columns),然后再移动到指定位置(change)alter table table_name add columns (c_time string comment '当前时间'); -- 正确,添加在最后alter table table_n

2020-08-17 11:05:16 2947

原创 数据仓库工具箱-学习笔记5-维度建模技术概述

数据仓库工具箱-学习笔记5

2020-07-31 18:07:25 328

原创 Storm基础(完整版)

Apache Storm 流式计算框架面试记住下面两个即可1、Storm基础1.1、Storm是什么Hadoop在处理数据的时候,时效性不够,市场期望能够尽快得到处理后的数据。 Storm是一个流式计算框架(类比MapReduce),数据源源不断的产生,源源不断的收集,源源不断的计算。(一条数据一条数据的处理) Strom是...

2020-07-20 18:22:53 1171

原创 数据仓库工具箱-学习笔记4-其他DW/BI架构介绍

数据仓库工具箱-学习笔记3其他DW/BI架构介绍一、独立数据及时架构无需考虑企业级信息共享和集成,只针对部分人员的需求。适合快速响应二、辐射状企业信息工厂Inmon架构辐射状企业信息工厂(Corporate Information Factory,CIF)方法。关注核心元素展开讨论。以部门为中心设计的,而不是以也业务中心三、常见的维度建模错误理解1.维度模型仅包含汇总数据 ×...

2020-07-20 09:47:46 509

原创 数据仓库工具箱-学习笔记3-Kimball的DW和BI框架

数据仓库工具箱-学习笔记3Kimball的DW和BI框架DW/BI系统组成分为四个:操作型原系统、ETL系统、数据展现、商业智能一、操作型源系统记录的是业务数据,认为原系统处于数据仓库之外,因为我们几乎不能才做这部分数据,它的目的是保留源数据的格式和内容。主要关注处理性能和可用性。二、ETL系统获取、转换、加载(Extract Transformation and Load,ETL)系统。其中包括工作区间、实例化数据结构、过程集合。是处于操作型源系统和DW/BI展现系统之间的区域。数据操作流程

2020-07-17 16:57:50 779

原创 数据仓库工具箱-学习笔记2-数据仓库、商业智能及维度建模初步

数据仓库工具书-学习笔记2(chapter1数据仓库、商业智能及维度建模初步)作者认为,没有必要纠结于技术,因为技术只是实现业务的工具,它会更新会变化,而真正根源是解决业务问题,至于什么技术实现不必纠结,探讨的是逻辑设计、物理设计及采用的相关技术和工具的决策和选定。一、三个重要概念1.数据仓库 DW(Data Werehousing)、2.商业智能 BI(Business Intelligence)、3.维度建模初步 (DW/BI的展现技术)二、信息的两个目的1.操作型记录的保存(用户获取订单

2020-07-14 17:29:45 718

原创 数据仓库工具箱-学习笔记1-前言&导读

数据仓库工具书第三版-学习笔记1(前言)一、商业目标管理组织中的数据并将其用于业务用户的决策,并从中获得回报。二、两种使用数据仓库的角色1.数据库管理员2.商业分析师二、三个重要概念1.数据仓库 DW(Data Werehousing)、2.商业智能 BI(Business Intelligence)、3.维度建模初步 (DW/BI的展现技术)三、维度建模:1.遵循简单性,易于用户理解和查询2.维度建模的框架将成为BI的平台,是建立集成化的DW/BI系统的主导结构3.维度建模是DW

2020-07-14 16:59:07 377

原创 hive创表语句

Hive的建表\插入语句创建规则:CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ....

2020-05-06 14:34:32 399

原创 SQL根据身份证,统计用户的省份

根据身份证 fcredit_id, 截取前两位,统计用户的省份select sum(case when SUBSTRING(fcredit_id,1,2)='11' then 1 else 0 end) as beijing, sum(case when SUBSTRING(fcredit_id,1,2)='12' then 1 else 0 end) as tainjing, sum...

2019-12-17 17:39:39 1703

原创 配置ssh-key

步骤一(生成ssh秘钥):右键git Bashgit config --global --list查看配置如果没有配置用户名:git config --global user.name “用户名”git config --global user.email “邮箱号”生成秘钥指令:ssh-keygen -t rsa -C “邮箱号”然后几个确认:直接几个回车直到生成↓±–...

2019-11-12 17:27:03 432

原创 Hadoop基础(一):简介

Hadoop简介:1.Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说,Hadoop 指 Apache 这款开源框架,它的核心组件有:① HDFS(分布式文件系统):解决海量数据存储② YARN(作业调度和集群资源管理的框架、提供资源和平...

2019-09-29 10:28:39 412

原创 IDEA工程建设步骤(git)

1.下载配置IEDA2.Clone相关的工程 (使用CVS->GIT->CLONE)3.解决工程爆红①配置User settings 和 Local respositry ②setting.xml文件配置localRepository ③在Project Structrue删除有问题的modules ④在maven小窗口clean+install解决爆红...

2019-05-08 11:10:51 255

原创 SQL心得

1 .发现select结果出现空行,如:(A union all B )left join C 。可能是A和B 不需要union 删除一个即可2 .发现select出现的行,重复问题。如 A leftjoin (select * from B left join max()… ) t 。可能是B做了分表,导致max()函数重复出了好几个,所以修改括号内函数为开窗函数row_number() ov...

2019-02-21 10:15:51 5295

转载 数据仓库和数据库的区别

转自: https://blog.csdn.net/maiduiyizu/article/details/80371410一、数据仓库    1.什么是数据仓库?    数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业...

2019-02-13 14:48:11 316

原创 Hive添加自增列

select row_number() over(order by 1) as id,a.* from dp_ipo_tmp.tmp_ipo_yekuai_118_2018q4_06 a where Finterest_date &lt;= '2018-12-31'代码line2所示,即为添加的自增id列

2019-01-29 16:47:58 7788 1

原创 Add to group by or wrap in first() (or first_value) if you don't care which value you get. 报错解决方案

SELECT SUBSTR(i.fdate,1,10) fdate,Ftype,SUM(i.Fdate_interest/100-i.Fpetty_date_ticket/1000000) fbase_interest,SUM(Fpetty_date_ticket)/1000000 fticket_interestFROM jz_snap.finance_db_t_finance_up_...

2019-01-25 14:44:42 4791

转载 inner join 与 left join 之间的区别

inner join 与 left join 之间的区别  关于inner join 与 left join 之间的区别,以前以为自己搞懂了,今天从前端取参数的时候发现不是预想中的结果,才知道问题出在inner join 上了。需求是从数据库查数据,在前端以柱形图的形式展现出来,查到的数据按行业分组,显示每个行业的户数及户数占比,涉及到的字段有A表的用户数、总用户数和B表的行业名称。本来是...

2018-12-26 16:59:48 15360

原创 使用 union all注意点

两个select 出来的列:字段数量、数据类型、顺序必须相同列名可以不同

2018-12-26 16:35:20 3503

原创 hive 插入数据到date类型的列中

方法一'2018-11-30' as fdate 方法二cast('2018-11-30' as date) as fdate 方法三to_date('2018-11-30 00:00:00') as fdate记得千万不要写错日期比如 2018-11-31 × 这种无论用色好呢么转换都是错的,因为11月没有31号!!!...

2018-12-25 20:23:46 10620

原创 ORC文件格式

ORC文件格式https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC在Hive版本0.11.0中引入。所述***优化行柱状(ORC)***文件格式提供了存储数据蜂房一种高度有效的方法。它旨在克服其他Hive文件格式的限制。当Hive读取,写入和处理数据时,使用ORC文件可以提高性能。例如,与RCFile格式相比...

2018-12-17 10:32:12 5547

原创 HiveQL: 查询

阿萨德

2018-12-14 15:56:29 994

原创 HiveQL:数据操作-导入和导出

–向管理中加载数据 (分区目录不存在,则会先创建分区)load data local inpath '${env:HOME}/california-employees'overwirte into table employeespartition (country = 'US', state ='CA')–通过查询语句向表中插入数据insert overwrite table empl...

2018-12-10 17:39:43 946

原创 HiveQL:数据定义

–查看数据库sshow databases; –创建数据库create database human_resources;–查找开头为h的所有数据库show database like 'h.*';–创建数据库,并指定位置create database financialslocation 'my/dir'–创建数据库。并添加说明create database fina...

2018-12-07 19:44:56 495

转载 SQL中inner join、outer join和cross join的区别

SQL中inner join、outer join和cross join的区别对于SQL中inner join、outer join和cross join的区别很多人不知道,我也是别人问起,才查找资料看了下,跟自己之前的认识差不多,如果你使用join连表,缺陷的情况下是inner join,另外,开发中使用的left join和right join属于outer join,另外outer joi...

2018-12-06 09:51:42 477

原创 line cannot recognize input near ';' '<EOF>' '<EOF>' in expression specification (HQL报错)

%hiveCreate table table1 stored as orc as SELECT p3.*from(SELECT p2.* ,row_number() over(PARTITION BY p2.id ORDER BY p2.find DESC) rf FROM (SELECT p1.* , row_number() over(PARTITION BY fi...

2018-12-05 18:30:54 26236

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除