自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

洗洗睡吧

吹累了,就睡会

  • 博客(16)
  • 收藏
  • 关注

原创 python实现从word导出表格到excel小记

直接上代码#-*-coding:utf-8 -*-import docximport openpyxlimport osimport sysimport reimport subprocess#import xlwtimport timefrom docx import Document #导入库def read_word(wd): document = Document(wd) #读入文件 tables = document.tables #获取文件中的表格集

2021-09-24 22:37:02 526 1

原创 2020-10-23

一些朋友1、python处理es数据import sys, os, shutilimport tracebackimport jsonimport datetimeimport requestsreload(sys) # reload 才能调用 setdefaultencoding 方法sys.setdefaultencoding('utf-8') # 设置 'utf-8'headers = {'Content-Type': 'application/json'}data = "

2020-10-23 16:22:35 135

原创 hive解析hql的bug,先记录下

—结果不正确,只找到1号数据,平均数没有计算出来,都是6.1的数据select platform,b.week_of_year ,content_type_id,cast(avg(uv) as decimal(15,2)) as week_avg_uv ,cast(avg(pv) as decimal(15,2)) as week_avg_pv,cast(avg(duration) as decimal(15,2)) as week_avg_duration,cast(avg(l1_pai_uv)

2020-06-03 14:53:26 206

原创 shell中小数的大小比较

shell里小数的大小比较comnum() { num1=$1 num2=$2 tmp1=${num1#*\.} if [ $num1 == $tmp1 ];then tmp1=0 fi tmp2=${num2#*\.} if [ $num2 == $tmp2 ];then tmp2=0 fi if [ ${#tmp1} -gt ${#t...

2020-01-08 16:58:10 2077

原创 hive处理分割后分组取最大值的udf

hive处理分割后在分组取最大值的udf,该udf定制化开发比较严重,这里只为保存下脚本。package com.lisardon.udf;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import org.apache.hadoop.hive.ql.exec.UDF;public ...

2020-01-08 10:25:52 575

原创 python查找hive表是否缺少日期分区脚本

python查找hive表是否缺少日期分区脚本#-*-coding:utf-8 -*-import osimport sysimport datetimeimport subprocessreload(sys)#获取hive表对应的文件存储目录def get_hdfs(tb): my_cmd = """hive -S -e "desc formatted """ + tb...

2020-01-08 10:18:03 312

原创 hive中APP版本号比较的udf

hive中APP版本比较的udfpackage com.lisardon.udf;import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.exec.UDF;public class AppVersionCom extends UDF { public String evaluate(String str1,...

2020-01-08 10:13:33 450

原创 python爬取图片

python爬取图片,需要输入要搜索的图片关键字。话不多说,直接上代码。from requests_html import HTMLSession class BaiDuImg: session = HTMLSession() img_url_regex = '"thumbURL":"{}",' url='' img_url_list =[] de...

2019-12-26 18:10:05 210

原创 python导出hive数据到excel中

使用python导出hive数据到excel中# -*- coding: utf-8 -*-import osimport sysimport reimport subprocessimport xlwtimport timedef exec_shell(cmd): res = subprocess.Popen(cmd, shell=True, stdout=subpro...

2019-12-24 14:40:44 1539

原创 使用python导出hive数据文件

使用python导出hive表的数据文件到本地1、创建要导出数据的临时表。2、使用如下脚本来导出数据文件,并制定分隔符。#-*-coding:utf-8 -*-# created by lisardon at 20190813 for export more than 20000 rows data.# exec: python Create_sql.py -d dim -t dim_c...

2019-12-23 14:33:03 1733

原创 hive查找json的键值是否存在的udf

hive查找键值是否存在的udf,直接上代码。package com.autohome.udf;import java.util.Iterator;import org.apache.hadoop.hive.ql.exec.UDF;import org.json.JSONException;import org.json.JSONObject;public class FindJs...

2019-12-19 17:24:49 857

原创 shell编程基础

任何一门编程语言,都是分为几个部分,把每个部分学习明白了,剩下的就是靠代码量来巩固自己编程能力了。同其他编程语言一样,shell大体分为几个部分1、变量2、逻辑操作3、循环结构4、函数5、正则表达式本文将简单介绍这五个部分,让你初步学会shell。至于学精shell,就需要自己多写代码,多看代码了。一、变量1、字符类型变量的赋值 shell里数值类型变量与字符类型变量同类,...

2019-12-19 16:16:47 81

原创 Oracle中一些字典表的用法

--数据库空间检查SELECT UPPER(F.TABLESPACE_NAME) "表空间名", T.TOTAL_BYTES "表空间大小(M)", T.TOTAL_BYTES - F.FREE_BYTES "已使用空间(M)", F.FREE_BYTES "空闲空间(M)", TO_CHAR(ROUND((T.TOTAL_BYTES - ...

2019-12-19 10:35:57 120

原创 oracle使用sqlldr进行文件入库操作

–操作系统下加载动作1、ctl文件的创建该控制文件说的是将ok_data.txt的数据,以空格做分隔符,插入到tmp表中。[oracle@localhost 20130922]$ cat load_ok_data.ctl load datainfile 'ok_data.txt'append into table TMP_GJ2013_CASE3_9901fields termina...

2019-12-19 10:13:35 1321

原创 hive创建udf介绍

1、先安装java环境 此处不介绍2、安装编程软件IDEa、在IDE里创建maven工程b、在maven工程里编写xml文件,按依赖选自动导入依赖。等待半小时左右依赖会添加完成。xml文件内容如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem...

2019-12-18 18:44:56 129

原创 大数据产品介绍

大数据时代下的大数据产品多样复杂,本文主要将大数据背景下的产品做个简单的介绍。

2019-06-17 09:48:56 3862

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除