自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Python读取已有文件,删除并更新数据进入指定sheet(File is not a zip file和文件损坏报错问题解决方法)

import pandas as pdimport numpy as npfrom openpyxl import load_workbookbook = load_workbook(r'C:\Users\zhimin.liu\Desktop\数据存储test.xlsx')try: ws = book["insert_test"] book.remove(ws) #删除需要替换的sheetexcept: print('无需删除的shee.

2022-03-28 11:40:16 3270 1

原创 EXCEL记录

数字格式转化仅大于0的时候[>=100000000]0!.00,“亿”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【万级别】[红色][<=-10000]-0!.0,“万”;[>=10000]0!.0,“万”;#,##0有大于0也有小于0的时候【亿级别】[红色][<=-100000000]-0!.00,“亿”;[>=100000000]0!.00,“亿”;0!.0,“万”...

2022-01-21 10:30:52 494

原创 Spark sql HLL函数

HLL函数:预估函数:presto_estimate_prepare(预估计算)合并函数:presto_estimate_merge(创建binary格式数据,用于后续计算)计算函数:presto_estimate_compute(对binary格式数据进行计算,类似拟合计算count distinct)概念说明:https://www.bookstack.cn/read/Doris/spilt.9.spilt.7.11.md --presto_estimate_compute(`hll_arry

2022-01-21 10:15:39 1781

原创 sparksql偷懒用笔记

填充数据列空值:coalesce(XXXX,0)步长设定:concat(string((ceil(1.0*money/${价格步长})-1)*${价格步长}) , '-' , string((ceil(1.0*money/${价格步长}))*${价格步长}))时间段:concat(string('${start_time_1}' ) , '-' , string('${end_time_1}' ) )获取当前日期所在周数:weekofyear(get_date(dt))展开合并数据库单元格数

2022-01-14 11:51:27 532

原创 sparksql常用计算函数

常用函数

2022-01-14 11:42:10 5181 1

原创 Spark sql根据开始和结束时间填充时序表

SELECT DISTINCT goods_id ,get_dt_date(start_time,i) as new_dt --根据i进行日期的填充from (SELECT goods_id ,get_dt_date(start_time) AS `start_time` ,get_dt_date(end_time) AS `end_time` FROM temp_db.table_name WHERE get_dt_date(en

2022-01-13 12:30:37 1615

原创 sparksql获取partitions信息(show partitions只能展示不能被条件调用)

A、获取最新分区信息(show无法被直接调用获取,只能展示信息) select get_recent_partition('表格名称','表格分区名')B、展示分区所有信息 show partitions table_name

2021-11-02 11:33:37 2397

原创 python进行md5(32位)转化并输出txt文件

import pandas as pd import hashlib def hashing_num(temp_num): a = temp_num.encode('utf-8') a = hashlib.md5(a).hexdigest() #调用hashlib包中的md5方法对单个字符串进行md5转化 return a #读取excel电话号码数据df = pd.read_excel(r'C:\Users\NING MEI\Desktop\手机号.xlsx'

2020-11-22 17:27:18 1455

原创 leecode(两数之和)

给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]class Solution: def twoSum(self, nums: List[int], target: int) -&g

2020-05-26 14:47:25 184

原创 dataframe groupby 出现错误 incompatible index of inserted column with frame index

新增一列用于储存分组计算后的值有时候会出现错误:incompatible index of inserted column with frame index该问题应为groupby计算生成的为series,其产生了索引导致不能直接插入一个“列”中。产生的series如下:所以在赋值的时候应直接赋值series的value,我计算的是分组然后计算偏移量,代码如下:#书时间排序,我这里是可以直接排序的,如果有需要可以进行分组时间排序,加个group by 并且用apply使用匿名函数进行排序即可df

2020-05-20 10:36:07 12695 3

原创 python数据处理到进入mysql的ods层

这是一个简单的python处理excel文件入库的项目。主要是为了处理整合一大堆excel到数据库里面,方便后续的数据处理和可视化。(代码能力有限~还希望大家多多指教,希望能得到大佬们的指点)ps:下面的过程只做主要流程的代码说明,具体的数据处理细节就不多写啦,就是pandas的各种用法。1. 数据链路(数据流转过程)从excel经过python处理后进入数据库etl层(同时处理完的exce...

2020-05-07 11:55:24 639

原创 tableau做类excel的业绩对比表

如何在tableau做类似excel中的这种表呢??下面就开始用tableau来制作这种表格啦。数据准备选取tableau中的“超市示例数据”,目的就设定为查看各个城市下的利润和销售额情况。(PS:日期请记得先离散,选择日期卡,拉到下面就有离散选项了,这里截不了图没办法)(还有,利润有负数的情况,我们这里就忽略掉,一般这种图不做负数的查看。。)开始干活创建选择参数,用来选择你看的是...

2020-04-16 12:32:31 724

原创 mysql获取某个表的所有列名且按表设计结构排序

今天在运行python脚本的时候,原来要从数据库中获取mysql列名赋值给dataframe,然后发现排好序的列名突然就乱了。W( ̄_ ̄)W。。。最后发现原因是数据库中select到的原来排序正确的列名直接乱了。。无奈之下只能加order by了。。记录一下怎样获得排好序的columns,也希望给跟我一样躺坑的人赶紧爬起来的机会。SELECT COLUMN_NAME FROM inform...

2020-04-16 11:28:48 1832

原创 dataframe时间类型转化错误:time data 2019-10-01 doesn't match format specified

time data 2019-10-01 doesn’t match format specified简单的时间格式转化错误目标:数据格式为:2019-10-01 ~ 2019-10-31 这种的范围时间,简单地获取前面1号作为全月标记。方便建立时间戳储存到数据库中。方法:k = df['日期'].str.split(' ~ ', expand = True) #中间是用空格和~分...

2020-04-10 15:00:34 6539

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除