自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 python读取excel,转换为JSON/INSERT SQL语句

业务方提供一个几十列、十万w+的excel,需要每月多次写入数据库。每次都需要手动处理数据转换为json或者insert语句。所以想到通过py直接转换为json文件和insert语句。2. 定义表头(第一列)和英文字段(key)的对应关系。4.定义写入文件名称,定义初始SQL。3. 将nan类型转换为None;5.生成json/sql写入文件。

2024-08-19 18:54:19 122

原创 python中nan、字符串 ‘nan‘ 、浮点数 float(‘nan‘) 不同,使用常规替换方式无法转换为None

python中nan、字符串 ‘nan‘ 、浮点数 float(‘nan‘) 不同,使用常规替换方式无法转换为None

2024-08-19 17:29:33 209

原创 python实现字符串相似度比较排序

通过python实现搜索关键词和搜索返回结果进行长度比较。然后按照相似度从大到小排序

2024-04-19 12:11:17 301 1

原创 python通过结巴(jieba)实现中文分词->英文转换

通过结巴分词实现中文切分,识别切分后的中文在不在已有词典中,如果存在则转换为英文,如果不存在则保留中文,中间用"_"分隔开。

2024-04-16 17:44:28 264

原创 DORIS-sql-bug记录

使用DORIS-SQL过程中,问题BUG对应的版本记录持续更新ing...

2023-11-27 16:16:15 438 1

原创 关于 UNIX_TIMESTAMP函数的趣事

关于 UNIX_TIMESTAMP函数的趣事:select UNIX_TIMESTAMP("2038-01-19 11:14:08") ,UNIX_TIMESTAMP("1970-01-01 00:00:00")

2023-11-23 12:04:13 146

原创 python使用Stream Load方式写入doris

本文使用简单案例,使用python作为开发语言,实现StreamLoad方式写入doris表中,能够满足基本的写入需要

2022-07-18 16:56:30 4011

原创 python3连接ES(elasticsearch)时https请求处理

python环境:python3.8.8ES(elasticsearch)版本 7.1.11.进行https请求时,忽略ssl证书验证,将context赋值给ssl_context 即可from elasticsearch import Elasticsearch#查看证书位置import ssl##忽视证书context = ssl._create_unverified_context()ES =["127.0.0.1:9200"]# 创建elasticsearch客户端es = E

2021-08-25 10:57:51 5117 2

原创 hive中小数点处理函数

hivesql 中对于小数点的处理ceil 向上取整SELECT ceil('10.25')11SELECT ceil('10.75')11floor 向下取整SELECT floor('10.75')10SELECT floor('10.25')10round 四舍五入SELECT round('10.25')10SELECT round('10.75')11regexp_extract正则取数0表示把整个正则表达式对应的...

2021-03-16 09:46:52 7593 2

原创 hive udf函数不生效问题

集群环境:CDH5.16.2问题描述:使用hive cli 在hive中创建的了永久的udf函数(当前连接生效,新建连接进入hive cli依然生效),但是当使用hue或者beeline连接,查询方法以及使用时无法找到。UDF函数简介:一进一出。一般由java语言编写,也可以使用python语言编写。hive中常用来做复杂数据清洗。UDF函数创建方式:临时创建:CREATE TEMPORARY FUNCTION function_name As永久创建add jar h.

2020-12-15 15:44:06 2448

原创 hive中内部表和外部表有什么区别?一般什么时候使用内部表什么时候使用外部表?

hive中内部表和外部表有什么区别?在使用hive搭建数据仓库的时候,可以建立两种表格。一种是内部表(managed table),一种是外部表(external table)。内部表建表是不加修饰词即可:create table database_name.table_name(column1 string,column2 string)外部表建表时需要加external:create table external database_name.table_name(col

2020-12-09 13:52:53 8764 5

原创 hive中模糊匹配“like”中的bug——count(like)+count(not like) !=总数据

今日输出报表时使用了like函数,数据统计异常。情况如下,当不加任何条件时,计算数据约为400万+;当加上单一限制条件not like '',数据总量变为200万+;当加上单一限制条件like '',数据总量变为137。SELECT count(1) from dwd_bigdata.tablename where fq_dt ='xxxx' --总数为4百万SELECT count(1) from dwd_bigdata.tablename where fq_dt ='xxxx

2020-12-04 16:49:21 1210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除