- 博客(14)
- 收藏
- 关注
原创 Python读取已有文件,删除并更新数据进入指定sheet(File is not a zip file和文件损坏报错问题解决方法)
import pandas as pdimport numpy as npfrom openpyxl import load_workbookbook = load_workbook(r'C:\Users\zhimin.liu\Desktop\数据存储test.xlsx')try: ws = book["insert_test"] book.remove(ws) #删除需要替换的sheetexcept: print('无需删除的shee.
2022-03-28 11:40:16
3401
1
原创 EXCEL记录
数字格式转化仅大于0的时候[>=100000000]0!.00,“亿”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【万级别】[红色][<=-10000]-0!.0,“万”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【亿级别】[红色][<=-100000000]-0!.00,“亿”;[>=100000000]0!.00,“亿”;0!.0,“万”...
2022-01-21 10:30:52
607
原创 Spark sql HLL函数
HLL函数:预估函数:presto_estimate_prepare(预估计算)合并函数:presto_estimate_merge(创建binary格式数据,用于后续计算)计算函数:presto_estimate_compute(对binary格式数据进行计算,类似拟合计算count distinct)概念说明:https://www.bookstack.cn/read/Doris/spilt.9.spilt.7.11.md --presto_estimate_compute(`hll_arry
2022-01-21 10:15:39
1895
原创 sparksql偷懒用笔记
填充数据列空值:coalesce(XXXX,0)步长设定:concat(string((ceil(1.0*money/${价格步长})-1)*${价格步长}) , '-' , string((ceil(1.0*money/${价格步长}))*${价格步长}))时间段:concat(string('${start_time_1}' ) , '-' , string('${end_time_1}' ) )获取当前日期所在周数:weekofyear(get_date(dt))展开合并数据库单元格数
2022-01-14 11:51:27
610
原创 Spark sql根据开始和结束时间填充时序表
SELECT DISTINCT goods_id ,get_dt_date(start_time,i) as new_dt --根据i进行日期的填充from (SELECT goods_id ,get_dt_date(start_time) AS `start_time` ,get_dt_date(end_time) AS `end_time` FROM temp_db.table_name WHERE get_dt_date(en
2022-01-13 12:30:37
1761
原创 sparksql获取partitions信息(show partitions只能展示不能被条件调用)
A、获取最新分区信息(show无法被直接调用获取,只能展示信息) select get_recent_partition('表格名称','表格分区名')B、展示分区所有信息 show partitions table_name
2021-11-02 11:33:37
2777
原创 python进行md5(32位)转化并输出txt文件
import pandas as pd import hashlib def hashing_num(temp_num): a = temp_num.encode('utf-8') a = hashlib.md5(a).hexdigest() #调用hashlib包中的md5方法对单个字符串进行md5转化 return a #读取excel电话号码数据df = pd.read_excel(r'C:\Users\NING MEI\Desktop\手机号.xlsx'
2020-11-22 17:27:18
1583
原创 leecode(两数之和)
给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]class Solution: def twoSum(self, nums: List[int], target: int) -&g
2020-05-26 14:47:25
217
原创 dataframe groupby 出现错误 incompatible index of inserted column with frame index
新增一列用于储存分组计算后的值有时候会出现错误:incompatible index of inserted column with frame index该问题应为groupby计算生成的为series,其产生了索引导致不能直接插入一个“列”中。产生的series如下:所以在赋值的时候应直接赋值series的value,我计算的是分组然后计算偏移量,代码如下:#书时间排序,我这里是可以直接排序的,如果有需要可以进行分组时间排序,加个group by 并且用apply使用匿名函数进行排序即可df
2020-05-20 10:36:07
13452
3
原创 python数据处理到进入mysql的ods层
这是一个简单的python处理excel文件入库的项目。主要是为了处理整合一大堆excel到数据库里面,方便后续的数据处理和可视化。(代码能力有限~还希望大家多多指教,希望能得到大佬们的指点)ps:下面的过程只做主要流程的代码说明,具体的数据处理细节就不多写啦,就是pandas的各种用法。1. 数据链路(数据流转过程)从excel经过python处理后进入数据库etl层(同时处理完的exce...
2020-05-07 11:55:24
732
原创 tableau做类excel的业绩对比表
如何在tableau做类似excel中的这种表呢??下面就开始用tableau来制作这种表格啦。数据准备选取tableau中的“超市示例数据”,目的就设定为查看各个城市下的利润和销售额情况。(PS:日期请记得先离散,选择日期卡,拉到下面就有离散选项了,这里截不了图没办法)(还有,利润有负数的情况,我们这里就忽略掉,一般这种图不做负数的查看。。)开始干活创建选择参数,用来选择你看的是...
2020-04-16 12:32:31
797
原创 mysql获取某个表的所有列名且按表设计结构排序
今天在运行python脚本的时候,原来要从数据库中获取mysql列名赋值给dataframe,然后发现排好序的列名突然就乱了。W( ̄_ ̄)W。。。最后发现原因是数据库中select到的原来排序正确的列名直接乱了。。无奈之下只能加order by了。。记录一下怎样获得排好序的columns,也希望给跟我一样躺坑的人赶紧爬起来的机会。SELECT COLUMN_NAME FROM inform...
2020-04-16 11:28:48
2071
原创 dataframe时间类型转化错误:time data 2019-10-01 doesn't match format specified
time data 2019-10-01 doesn’t match format specified简单的时间格式转化错误目标:数据格式为:2019-10-01 ~ 2019-10-31 这种的范围时间,简单地获取前面1号作为全月标记。方便建立时间戳储存到数据库中。方法:k = df['日期'].str.split(' ~ ', expand = True) #中间是用空格和~分...
2020-04-10 15:00:34
6708
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人