- 博客(16)
- 收藏
- 关注
原创 python实现从word导出表格到excel小记
直接上代码#-*-coding:utf-8 -*-import docximport openpyxlimport osimport sysimport reimport subprocess#import xlwtimport timefrom docx import Document #导入库def read_word(wd): document = Document(wd) #读入文件 tables = document.tables #获取文件中的表格集
2021-09-24 22:37:02 544 1
原创 2020-10-23
一些朋友1、python处理es数据import sys, os, shutilimport tracebackimport jsonimport datetimeimport requestsreload(sys) # reload 才能调用 setdefaultencoding 方法sys.setdefaultencoding('utf-8') # 设置 'utf-8'headers = {'Content-Type': 'application/json'}data = "
2020-10-23 16:22:35 145
原创 hive解析hql的bug,先记录下
—结果不正确,只找到1号数据,平均数没有计算出来,都是6.1的数据select platform,b.week_of_year ,content_type_id,cast(avg(uv) as decimal(15,2)) as week_avg_uv ,cast(avg(pv) as decimal(15,2)) as week_avg_pv,cast(avg(duration) as decimal(15,2)) as week_avg_duration,cast(avg(l1_pai_uv)
2020-06-03 14:53:26 219
原创 shell中小数的大小比较
shell里小数的大小比较comnum() { num1=$1 num2=$2 tmp1=${num1#*\.} if [ $num1 == $tmp1 ];then tmp1=0 fi tmp2=${num2#*\.} if [ $num2 == $tmp2 ];then tmp2=0 fi if [ ${#tmp1} -gt ${#t...
2020-01-08 16:58:10 2129
原创 hive处理分割后分组取最大值的udf
hive处理分割后在分组取最大值的udf,该udf定制化开发比较严重,这里只为保存下脚本。package com.lisardon.udf;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import org.apache.hadoop.hive.ql.exec.UDF;public ...
2020-01-08 10:25:52 588
原创 python查找hive表是否缺少日期分区脚本
python查找hive表是否缺少日期分区脚本#-*-coding:utf-8 -*-import osimport sysimport datetimeimport subprocessreload(sys)#获取hive表对应的文件存储目录def get_hdfs(tb): my_cmd = """hive -S -e "desc formatted """ + tb...
2020-01-08 10:18:03 321
原创 hive中APP版本号比较的udf
hive中APP版本比较的udfpackage com.lisardon.udf;import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.exec.UDF;public class AppVersionCom extends UDF { public String evaluate(String str1,...
2020-01-08 10:13:33 462
原创 python爬取图片
python爬取图片,需要输入要搜索的图片关键字。话不多说,直接上代码。from requests_html import HTMLSession class BaiDuImg: session = HTMLSession() img_url_regex = '"thumbURL":"{}",' url='' img_url_list =[] de...
2019-12-26 18:10:05 216
原创 python导出hive数据到excel中
使用python导出hive数据到excel中# -*- coding: utf-8 -*-import osimport sysimport reimport subprocessimport xlwtimport timedef exec_shell(cmd): res = subprocess.Popen(cmd, shell=True, stdout=subpro...
2019-12-24 14:40:44 1560
原创 使用python导出hive数据文件
使用python导出hive表的数据文件到本地1、创建要导出数据的临时表。2、使用如下脚本来导出数据文件,并制定分隔符。#-*-coding:utf-8 -*-# created by lisardon at 20190813 for export more than 20000 rows data.# exec: python Create_sql.py -d dim -t dim_c...
2019-12-23 14:33:03 1778
原创 hive查找json的键值是否存在的udf
hive查找键值是否存在的udf,直接上代码。package com.autohome.udf;import java.util.Iterator;import org.apache.hadoop.hive.ql.exec.UDF;import org.json.JSONException;import org.json.JSONObject;public class FindJs...
2019-12-19 17:24:49 872
原创 shell编程基础
任何一门编程语言,都是分为几个部分,把每个部分学习明白了,剩下的就是靠代码量来巩固自己编程能力了。同其他编程语言一样,shell大体分为几个部分1、变量2、逻辑操作3、循环结构4、函数5、正则表达式本文将简单介绍这五个部分,让你初步学会shell。至于学精shell,就需要自己多写代码,多看代码了。一、变量1、字符类型变量的赋值 shell里数值类型变量与字符类型变量同类,...
2019-12-19 16:16:47 89
原创 Oracle中一些字典表的用法
--数据库空间检查SELECT UPPER(F.TABLESPACE_NAME) "表空间名", T.TOTAL_BYTES "表空间大小(M)", T.TOTAL_BYTES - F.FREE_BYTES "已使用空间(M)", F.FREE_BYTES "空闲空间(M)", TO_CHAR(ROUND((T.TOTAL_BYTES - ...
2019-12-19 10:35:57 128
原创 oracle使用sqlldr进行文件入库操作
–操作系统下加载动作1、ctl文件的创建该控制文件说的是将ok_data.txt的数据,以空格做分隔符,插入到tmp表中。[oracle@localhost 20130922]$ cat load_ok_data.ctl load datainfile 'ok_data.txt'append into table TMP_GJ2013_CASE3_9901fields termina...
2019-12-19 10:13:35 1372
原创 hive创建udf介绍
1、先安装java环境 此处不介绍2、安装编程软件IDEa、在IDE里创建maven工程b、在maven工程里编写xml文件,按依赖选自动导入依赖。等待半小时左右依赖会添加完成。xml文件内容如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem...
2019-12-18 18:44:56 141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人