自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 利用hive中的行转列列转行处理字段中逗号分隔的重复数据

hive行转列与列转行

2022-11-18 22:52:47 1140 1

原创 数据管理知识体系指南(第二版)-第十章——参考数据和主数据-学习笔记

10.1引言10.1.1业务驱动因素主数据管理最常见的驱动因素包括:满足组织数据需求 管理数据质量 管理数据集成的成本 降低风险参考数据管理的驱动因素和主数据相似,集中管理的参考数据会使组织获得如下好处:通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。 提升参考数据的质量。声明:未经许可,严禁抄袭。...

2022-11-18 22:25:49 1671

原创 数据管理知识体系指南(第二版)-第五章——数据建模和设计-学习笔记

数据建模的目标是确认和记录不同视角对数据需求的理解,从而使应用程序与当前和未来的业务需求更加紧密地结合在一起,并为成功地完成广泛的数据应用和管理活动奠定基础,如主数据管理和治理计划。

2022-04-04 20:54:26 2433

原创 数据管理知识体系指南(第二版)-第四章——数据架构-学习笔记

4.1引言

2022-01-17 21:08:24 8285

原创 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记

3.1引言数据治理:是在管理数据资产过程中行使权利和管控,包括计划、监控和实施。建立正式的数据治理规程及有意向性地行使权利和管控的组织,数据治理能够更好地增加从数据资产中获得的收益。(数据治理的作用)数据管理的整体驱动力是确保组织可以从其数据中获得价值。数据治理的聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式。数据治理项目的范围和焦点依赖于组织需求,主要包括内容为:战略。定义、交流和驱动数据战略和数据治理战略的执行。 制度。设置与数据、元数据管理、访问、使用、安

2022-01-13 22:11:13 3381

原创 数据管理知识体系指南(第二版)-第一章——数据管理-学习笔记

引言:

2022-01-09 00:43:00 2764

原创 sql中的模糊匹配 like ‘%狗%‘返回其他值

今日发现一个奇怪的问题,在select 模糊匹配 ‘狗’时,竟然返回了与此无关的内容。create table pdata.a3_20211123(name varchar(100));insert into pdata.a3_20211123 values('附加扩展非自身');insert into pdata.a3_20211123 values('附加扩展法');insert into pdata.a3_20211123 values('宠物狗保');insert into pdata.a

2021-11-23 21:57:06 228

原创 数据库中null值与空字符串的用法注意事项

以下文章主要对比oracle、teradata、gbase数据库中null值与空字符串的用法注意事项首先在oracle中建表并插入实例数据create table a1_20211123(name varchar(10),id varchar(10));create table a2_20211123(name varchar(10),id varchar(10));-- 插入a1表insert into a1_20211123 values('a','1');insert into a1_20

2021-11-23 21:48:37 2068

原创 优化改写两个大表关联sql

好久没更新了,也不知道天天忙个啥锤子了!!! 前段时间夜间有一个sql,晚上将数据库部分节点磁盘占满了,导致夜间部分调度失败了。早起我去查看日志定位问题,发现跑了8个多小时的sql。。。具体sql如下:INSERT INTO otemp.L_TRUCK_07 select P1.*,max(P4.LAST_AMT) LAST_AMT From otemp.L_TRUCK_06 P1 -- 1千万+ left join TVIEW.T_ITEM...

2021-05-29 19:03:07 1304 1

原创 windows环境下oracle安装教程

最近要给新来的实习生讲解数据库知识,为了教学方便,所以计划在每人的电脑上安装一个oracle,方便教学及学生后期学习方便。所以我先自己在自己电脑上安装一下,进行文件记录,到时候带着他们一起安装,避免翻车。哈哈哈!安装oracle版本:oracle11g(32位)安装环境:win7(同时适用win10)安装步骤:1.www.oracle.com官网下载好的安装包如下:![](https://img-blog.csdnimg.cn/20201031204434791.png?x-oss-proces

2020-10-31 22:00:57 1701

原创 python获取大文件行数

当需要用python获取一个文件行数时,如果文件小的话,直接存放在列表中len获取即可,可是当一个文件如果超过服务器内存值时,此时的进程就会被kill。#获取一般大小文件时候,如下获取:def get_file_count_1(file_path): cnt = 0 with open(file_path,mode='rb')as f: for line in ...

2020-05-04 16:18:22 1434

原创 数据库 not in 的坑(后续)

我之前写了一篇关于select 查询时,当not in 里子查询中有null值时候,那么不返回,这个是可以理解的。但是对于多字段我没测试。有一天开发时,发现跑出的结果和我预想的有出入,我就进行了测试,测试截图以oracle为例,实际我还在td上也跑了,下边每一步我都附带了td结果CREATE TABLE test111(a CHAR(5),b VARCHAR2(10) );INSERT INT...

2020-04-25 18:28:45 549

原创 编程实现任务分发思路及关键步骤

对于任务分发,首先要类似于celery那种,自己定义一个broker和不同的任务类型设置多个worker。broker主要是用于读取和存储执行的任务及控制worker的并发数和记录worker执行状态等。以下是我之前利用perl语言写了一个类似的任务。(我只写关键部分)首先broker内容,#!/usr/bin/perl#首先定义下边所需要的参数my $parameter = @AR...

2020-04-25 18:06:48 535

原创 python将照片转换成手绘图片

最近在b站学习数据分析时,看到了可以用numpy将照片转换成手绘效果。自己整上代码学习试了半天,调整了参数并看了效果。代码如下: # -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""from PIL import Imageimport numpy as npa = np.ar...

2020-03-17 20:09:32 962

原创 如何度过自己的每一天

每个人一天有86400秒,每个人有每个人的消费方式。在这个疫情期间,每个人都宅在家里,都是怎么过的呢?追剧?小说?刷抖音,快手?或者是蒸蛋糕?还是有时间在静下心来学习呢? 在春天播什么种,期间怎么经营,决定着你在深秋时候收成如何。春节前期又下载抖音了,在工作之余就刷抖音,不知不觉时间都流失了,抖音快手这些短视频可以是我们了解最新咨询的手段,或者学习做饭的一个很好的途径,但是不能被其...

2020-03-15 00:21:42 229

原创 numpy数组存取操作方法

自己在b站照着学习的,方便使用和复习#创建一个数组 import numpy as np a = np.arange(100).reshape((5,20))aOut[4]: array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19], ...

2020-03-13 21:34:16 261

原创 ndarray数据创建及操作方法

--最近自己在B站上 照着学操作的记录,保留下来,方便后期随时复习及使用--安装anaconda软件--在spyder上执行程序代码--pip install numpy 安装库--在spydedr生成ndarray数据#在Ipython中用的列表和元组生成ndarray数据--列表import numpy as npa = np.array([1,2,3])print...

2020-03-13 21:24:08 518

原创 数据库with as 用法及with as 改写sql进行优化

with as 在oracle中用法:WITH wa_tab_name AS (SELECT * FROM emp)SELECT * FROM wa_tab_name;#相当于在将emp表临时存放在了wa_tab_name中再如:WITH wa_tab_name AS (SELECT deptno,COUNT(*) AS cnt FROM emp GROUP BY deptno)SE...

2020-01-18 17:08:02 2025 1

原创 对表中所有查询的列做特殊处理

本文为作者自己编写,只供参考:如果有一个需求需要对表中所有的列进行查询做trim处理,插入到新的表中做数据清洗,那么需要对每个列进行trim(column_name)这种语法处理,如果一个表的话,可以手动写,但是如果有1000张表呢,该怎么办啊?这时候需要查询系统表,通过系统表信息sql进行拼接处理。当然如果数据库支持存储过程做循环的话那样最好了,但是有些数据库写存储过程实在不行或者太难,那我...

2019-11-24 10:05:15 262 1

原创 数据库 not in 的坑

以oracle数据库为列:CREATE TABLE test_20191124(NAME VARCHAR2(5),num_cnt NUMBER);INSERT INTO test_20191124 VALUES('a',1);INSERT INTO test_20191124 VALUES('b',2);INSERT INTO test_20191124 VALUES('c',3);CR...

2019-11-24 09:13:39 1398

原创 mpp使用注意事项(分布键)

各位读者好! 我之前写的内容是都是自己学习python写的一些笔记及自己编写的小脚本。其实我本人是一位数据库开发人员。15年开始工作,熟悉oracle数据库、擅长mpp数据库,mpp数据库熟悉Teradata,国产列式数据库Gbase 8a。Greenplum有简单使用过(当时公司挑选时候性能不好而pass了,简单语法了解过。用客户的话说,都是出来混的,谁能比谁差哪去,所以当时GP性能...

2019-11-24 08:34:15 2325

原创 python判断日期对应当年天数和输入当年天数判断日期

输入日期判断为当年第多少天import timedef datecunt(datetime1): """输入一个日期,判断是今年的第多少天""" date01=time.mktime(time.strptime(datetime1[:4]+"0101", "%Y%m%d")) date02 = time.mktime(time.strptime(datetime1, ...

2019-08-31 16:22:23 1341

原创 Python实现节假日及按规定的加班日期

需求:因每月1-3号以及上月末最后1天共4天必须上班。现需要用Python编写一段程序判断某年需要加班的日期,需要考虑元旦,五一,十一假期。还需要考虑输入年份是否为平闰年,判断对应2月的天数。(放假规则说明:如五月1日:在周一,则休息日为上周六七及本周一,无需补班。在周二,则休息日为上周日加本周一二,上周六需补班。在周三,则休息日为二三四,休假前的周日与休假后的周六各补班一天。在周四,...

2019-08-31 15:50:50 1780

原创 python生成扑克牌并实现比较大小玩法

编程目的:本内容主要是通过Python中的类实现的,当时编写扑克牌的目的是宁大哥为了锻炼我理解面向对象的编程。通过编写程序更好的明白py中类用法及类中方法的调用。代码功能简述:1.通过类实现生成一副扑克牌(PlayCard);2.并定义一个类实现——人(People);3.练习类的继承定义玩家对象(Rookie)和发牌小姐姐 ( Dealer...

2019-07-21 12:47:56 10932 3

原创 python打印正三角形、倒三角形、菱形

利用python循环打印正三角形,倒三角形、菱形使用循环套循环打印#打印空心菱形num = 10for x in range(-num,num): for y in range(-num,num): # print(x,y) if abs(x)+abs(y) == num -1: print("*",end=' ') ...

2019-06-29 21:34:28 28213 2

原创 python递归查找文件

需求:给出一个文件路径,查找出该路径下的所有文件。方法:通过编写函数递归,实现此功能。先判断给出的路径是否为文件,如果是直接结束,–基例;如果是目录。查找出目录里边的文件和目录,直到找出所有文件为止 --链条;#!/usr/bin/python# -*- coding: UTF-8 -*-import osfile_list = list() #将查找出的文件存放在列表中def ...

2019-06-29 19:54:37 3050 2

原创 jieba库用法及分析红楼梦出场次数

利用jieba库进行分词处理jieba库用法只需要记住lcut用法即可。其他不常用1.安装jieba库在windows中cmd窗口下执行pip install jiebaC:\WINDOWS\system32>pip install jiebaCollecting jieba Downloading https://files.pythonhosted.org/packages...

2019-06-23 19:02:14 4821 4

原创 wordcloud 用法及名著词云统计

python 第三方库 wordcloud 基本用法wordcloud是一个第三方库 ,需要安装使用。以下演示在windows环境下进行。演示版本为python3.7.4python 笔记列表 name=[‘a’,‘b’,‘c’,…]print (name[0]) #显示结果为a修改列表元素name[0]=‘c’#显示为C,B,Cprint(name.title()) #首字...

2019-06-23 16:38:39 1141 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除