Moonset1995-CSDN博客

原创 Python读取已有文件，删除并更新数据进入指定sheet(File is not a zip file和文件损坏报错问题解决方法)

import pandas as pdimport numpy as npfrom openpyxl import load_workbookbook = load_workbook(r'C:\Users\zhimin.liu\Desktop\数据存储test.xlsx')try: ws = book["insert_test"] book.remove(ws) #删除需要替换的sheetexcept: print('无需删除的shee.

2022-03-28 11:40:16 3501 1

原创 EXCEL记录

数字格式转化仅大于0的时候[>=100000000]0!.00,“亿”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【万级别】[红色][<=-10000]-0!.0,“万”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【亿级别】[红色][<=-100000000]-0!.00,“亿”;[>=100000000]0!.00,“亿”;0!.0,“万”...

2022-01-21 10:30:52 702

原创 Spark sql HLL函数

HLL函数：预估函数：presto_estimate_prepare（预估计算）合并函数：presto_estimate_merge（创建binary格式数据，用于后续计算）计算函数：presto_estimate_compute（对binary格式数据进行计算，类似拟合计算count distinct）概念说明：https://www.bookstack.cn/read/Doris/spilt.9.spilt.7.11.md --presto_estimate_compute(`hll_arry

2022-01-21 10:15:39 2006

原创 sparksql偷懒用笔记

填充数据列空值：coalesce(XXXX,0)步长设定：concat(string((ceil(1.0*money/${价格步长})-1)*${价格步长}) , '-' , string((ceil(1.0*money/${价格步长}))*${价格步长}))时间段：concat(string('${start_time_1}' ) , '-' , string('${end_time_1}' ) )获取当前日期所在周数：weekofyear(get_date(dt))展开合并数据库单元格数

2022-01-14 11:51:27 655

原创 sparksql常用计算函数

常用函数

2022-01-14 11:42:10 6189 1

原创 Spark sql根据开始和结束时间填充时序表

SELECT DISTINCT goods_id ,get_dt_date(start_time,i) as new_dt --根据i进行日期的填充from (SELECT goods_id ,get_dt_date(start_time) AS `start_time` ,get_dt_date(end_time) AS `end_time` FROM temp_db.table_name WHERE get_dt_date(en

2022-01-13 12:30:37 1846

原创 sparksql获取partitions信息（show partitions只能展示不能被条件调用）

A、获取最新分区信息（show无法被直接调用获取，只能展示信息） select get_recent_partition('表格名称','表格分区名')B、展示分区所有信息 show partitions table_name

2021-11-02 11:33:37 2965

原创 python进行md5（32位）转化并输出txt文件

import pandas as pd import hashlib def hashing_num(temp_num): a = temp_num.encode('utf-8') a = hashlib.md5(a).hexdigest() #调用hashlib包中的md5方法对单个字符串进行md5转化 return a #读取excel电话号码数据df = pd.read_excel(r'C:\Users\NING MEI\Desktop\手机号.xlsx'

2020-11-22 17:27:18 1631

原创 leecode（两数之和）

给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。示例：给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]class Solution: def twoSum(self, nums: List[int], target: int) -&g

2020-05-26 14:47:25 248

原创 dataframe groupby 出现错误 incompatible index of inserted column with frame index

新增一列用于储存分组计算后的值有时候会出现错误：incompatible index of inserted column with frame index该问题应为groupby计算生成的为series，其产生了索引导致不能直接插入一个“列”中。产生的series如下：所以在赋值的时候应直接赋值series的value，我计算的是分组然后计算偏移量，代码如下：#书时间排序，我这里是可以直接排序的，如果有需要可以进行分组时间排序，加个group by 并且用apply使用匿名函数进行排序即可df

2020-05-20 10:36:07 13604 3

原创 python数据处理到进入mysql的ods层

这是一个简单的python处理excel文件入库的项目。主要是为了处理整合一大堆excel到数据库里面，方便后续的数据处理和可视化。（代码能力有限~还希望大家多多指教，希望能得到大佬们的指点）ps：下面的过程只做主要流程的代码说明，具体的数据处理细节就不多写啦，就是pandas的各种用法。1. 数据链路（数据流转过程）从excel经过python处理后进入数据库etl层（同时处理完的exce...

2020-05-07 11:55:24 791

原创 tableau做类excel的业绩对比表

如何在tableau做类似excel中的这种表呢？？下面就开始用tableau来制作这种表格啦。数据准备选取tableau中的“超市示例数据”，目的就设定为查看各个城市下的利润和销售额情况。（PS：日期请记得先离散，选择日期卡，拉到下面就有离散选项了，这里截不了图没办法）（还有，利润有负数的情况，我们这里就忽略掉，一般这种图不做负数的查看。。）开始干活创建选择参数，用来选择你看的是...

2020-04-16 12:32:31 905

原创 mysql获取某个表的所有列名且按表设计结构排序

今天在运行python脚本的时候，原来要从数据库中获取mysql列名赋值给dataframe，然后发现排好序的列名突然就乱了。W(￣_￣)W。。。最后发现原因是数据库中select到的原来排序正确的列名直接乱了。。无奈之下只能加order by了。。记录一下怎样获得排好序的columns，也希望给跟我一样躺坑的人赶紧爬起来的机会。SELECT COLUMN_NAME FROM inform...

2020-04-16 11:28:48 2150

原创 dataframe时间类型转化错误：time data 2019-10-01 doesn't match format specified

time data 2019-10-01 doesn’t match format specified简单的时间格式转化错误目标：数据格式为：2019-10-01 ~ 2019-10-31 这种的范围时间，简单地获取前面1号作为全月标记。方便建立时间戳储存到数据库中。方法：k = df['日期'].str.split(' ~ ', expand = True) #中间是用空格和~分...

2020-04-10 15:00:34 6780

Moonset1995的博客