- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 windows环境安装JDK java环境变量配置教程
windows环境安装JDK java环境变量配置教程下载安装环境变量配置1 进入环境变量配置页面添加环境变量检查JDK配置下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk12-downloads-5295953.html根据自身系统选择对应的下载文件,如果是64位请选择对应64位系统文件.勾选 “Accep...
2019-06-20 11:07:10 330
原创 Python拆分Excel 身份证信息 与分词统计
Python解析Excel并且进行分词统计文件描述新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入文件描述你...
2019-06-05 10:43:10 935
原创 python分析excel(column判断写入,复制excel等)
import openpyxlfrom datetime import datetime,timedeltaimport pandas as pdimport os, sys,re,shutiltt = datetime.now().timetuple()today = str(tt.tm_year)+'-'+str(tt.tm_mon)+'-'+str(tt.tm_mday)p...
2019-06-03 03:19:30 451
原创 SQL 计算一个时间段内每十分钟统计一次脚本
表结构如下,假如我想统计每个id,在每个整点的十分钟区间内有多少:十分钟区间逻辑如下:select upg.name,count(tmp.id) totalNum,tmp.newTimefrom( select t.id, -- ID,状态 to_char(t.Time,'yyyymmddhh24mi') oldTime, -- 原来的时...
2019-05-11 13:56:28 2160
原创 采集日志工具整理
1、filebeaturl:https://www.elastic.co/cn/products/beats/filebeat轻量型日志采集器
2019-04-22 11:39:15 1065
原创 一些BI可视化工具的使用总结
建设数据统一的数据平台,免不了使用一些可视化工具,如下是在工作几年后,对这些工具的总结,有不正确之处,请指正。IBMcognos润乾SmartBIFineReport、FineBIPowerBI...
2019-04-07 21:11:36 994
原创 00、Python一些工具箱
BIF 内置函数如何查看内置函数:dir(__builtins__)可以查看内置方法,结果如下:>>> dir(__builtins__)['ArithmeticError', 'AssertionError', 'AttributeError', 'BaseException', 'BlockingIOError', 'BrokenPipeError', '...
2019-04-06 19:00:35 326
原创 01、如何解决嵌套列表逐一输出
加入目前有这么一个列表citys = ['shanghai','beijing','guangzhou','shenzhen',['江苏',['南京','镇江','苏州',['昆山','南通']]]]需要一一打印出列表:shanghaibeijingguangzhoushenzhen江苏南京镇江苏州昆山南通可以通过递归的思想来解决,首先定义...
2019-04-06 18:50:55 776
原创 Greenplum数学函数和操作符
最近可能需要干一些数据分析的活,想到能否先用SQL实现一些算法,事不宜迟,第一步必须了解一些基础的数学函数和操作符。数学操作符 编号 操作符 描述 栗子 结果 001 + 加 select 32+90 122 002 - 减 select 100-23 77 003 * 乘 select 5...
2019-02-18 14:36:52 2542
原创 ubuntu16.04 安装JDK1.7运行环境
环境说明:UBUNTU16.04 X64jdk:jdk-7u80-linux-x64.tar.gz下载链接:https://www.oracle.com/technetwork/java/javase/downloads/index.html将下载文件上传linux服务器解压安装包:tar -zxvf jdk-7u80-linux-x64.tar.gz移动解压文件到/usr/l...
2019-01-29 11:00:31 965
原创 Python将EXCEL导入 Greenplum
在项目中会碰到需要将excel批量导入数仓的需求,python的xlrd正好简单易用,拿来一试!import psycopg2import xlrdimport sysimport time''' 连接数据库 args:db_name(数据库名称) returns:db'''sys_time = time.ctime()print(sys_time)...
2019-01-15 11:06:10 615
原创 Greenplum计算每月消耗的基本语法
SELECT dtime.sysmonth, opos.orderby_person,CASE WHEN opos."消耗金额" IS NULL THEN 0 ELSE opos."消耗金额" END FROM ( SELECT DISTINCTto_char ( onday, 'yyyymm' ) sysmonthFROM ( SELECT ca...
2019-01-14 10:07:27 394
原创 Greenplum 资源状态查看记录
作为BI工程师,对SQL的熟练掌握必不可少,greenplum作为MPP数据库,当然需要深入了解一些重要的开发技巧。日常SQL开发规范要求:1.代码行清晰、整齐、层次分明、结构性强,易于阅读;2.代码中应具备必要的注释以增强代码的可读性和可维护性;3.代码应充分考虑执行效率,保证代码的高效性;Greenplum数据字典使用,有个重要的schema,分别是:pg_catalog,pg...
2018-11-17 23:12:46 2321 1
原创 数据仓库建设
在遇到新项目的同时,考验一个人的数仓建设。以下为我建设点滴以及踩坑记录。环境:目前底层数据比较分散,业务系统中数据比较难搞,给业务部门提取数据逻辑比较复杂。需求:解决大部分excel手工数据,先拿财务数据‘开刀’,第一个就是最难啃得骨头。给全公司建设统一数据查看平台,把各个分散得数据归集起来形成数据仓库。...
2018-07-23 17:52:58 513
原创 TiDB开发测试
由于项目需要,需要对TiDB对接kettle进行功能测试,以下是初步测试结果,请参考,后续会不间断更新 类目 测试方案 测试过程 测试结果 接口测试 连接数据库(MySQL)、Transactions(Kettle) 使用Kettle转换MySQL数据表 完全兼容MySQL,JDBC驱动直接使用MySQL自带驱动,可以快速进入开发。 连接稳定性...
2018-07-23 17:46:26 1628
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人