小菜菜1223
码龄5年
  • 309,553
    被访问
  • 241
    原创
  • 22,845
    排名
  • 70
    粉丝
  • 0
    铁粉
关注
提问 私信

个人简介:qq846792646

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-10-24
博客简介:

qq_40771567的博客

查看详细资料
  • 5
    领奖
    总分 1,106 当月 18
个人成就
  • 获得70次点赞
  • 内容获得103次评论
  • 获得429次收藏
创作历程
  • 18篇
    2022年
  • 121篇
    2021年
  • 20篇
    2020年
  • 43篇
    2019年
  • 61篇
    2018年
成就勋章
TA的专栏
  • Hive
    17篇
  • Scala
    2篇
  • Java
    97篇
  • Shell
    4篇
  • hadoop
    8篇
  • 脚本
    3篇
  • Spark
    1篇
  • git
    1篇
  • redis
    12篇
  • Java Flink
    42篇
  • 面试准备
    21篇
  • 算法及数据结构
    15篇
  • SpringBoot
    22篇
  • mapreduce
    5篇
  • python openpyxl Excel
    8篇
  • python面试题目
    2篇
  • 剑指offer题目
    4篇
  • python代码规范及优化
    1篇
  • supervisor
    3篇
  • nfs
    1篇
  • python
    88篇
  • linux
    12篇
  • Kafka
    4篇
  • mysql
    11篇
  • 爬虫
    14篇
  • mongodb
    2篇
  • Django
    6篇
  • hbase
    2篇
  • html
    10篇
  • 娱乐福利
    1篇
  • nginx
    3篇
  • JavaScript
    4篇
  • JQuery
    3篇
  • 个人笔记
    1篇
  • go
    7篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive 根据生日计算年龄

Hive 根据生日计算年龄
原创
发布博客 2022.07.13 ·
202 阅读 ·
0 点赞 ·
0 评论

Hive with项目实战:计算标签覆盖率

今天做项目,要计算用户的标签覆盖率,就是实现这样一个表格:根据用户的最近访问时间,计算这些用户含有某个标签属性的占比。其实做起来不难,但是如何实现需要设计一个思路。Sql思路:1、先根据日期筛选用户2、计算每个标签不为空的数量/该日期内的用户总数其实sql做起来很简单,但是我们进行简单的优化1、将该日期内的用户总数通过with加载到内存2、通过脚本对各个日期维度进行计算,避免写重复sql,最后再对表进行合并代码:1、根据日期筛选用户DROP TABLE IF
原创
发布博客 2022.04.25 ·
101 阅读 ·
0 点赞 ·
0 评论

Scala 配合Java查询mysql

之前的Java查询Mysql的工具类地址:Java 获取mysql连接工具类_小菜菜1223的博客-CSDN博客scala配合工具类进行mysql查询代码:package utilsobject SelectUtils { def selectConf(sql: String): String = { var conf: String = "" val conn = JdbcUtils.getConnection val pst = conn.prepareS
原创
发布博客 2022.04.21 ·
186 阅读 ·
0 点赞 ·
0 评论

Java 获取mysql连接工具类

Spark还是平时经常会使用到mysql去读取一些配置信息,所以整理一个工具类获取或者关闭mysql的连接。1、首先编写配置文件db.properties:url=jdbc:mysql://10.driver=com.mysql.jdbc.Driverusername=rootpassword=1234562、编写工具类:package utils;import java.io.InputStream;import java.sql.*;import java.ut
原创
发布博客 2022.04.14 ·
750 阅读 ·
0 点赞 ·
0 评论

脚本刷新impala表

很多服务都是通过impala来读取hive表数据。我们每次更新完hive表,可以通过脚本刷新。在脚本中添加:impala-shell -k -q "refresh t_risk.flow_anomaly_monitoring_v2";-k:认证-q:后边跟要执行的sql即可。...
原创
发布博客 2022.04.12 ·
931 阅读 ·
0 点赞 ·
0 评论

记录简单的服务自动化shell脚本

为了能够方便的启动、重启、停止或者查询服务状态,需要写脚本来控制。(未完成版本)首先是配置文件,类似于代码的config,只需要修改这里边的参数再去运行脚本即可实现自动化config.sh#项目名称export PARAM="say"#运行代码的名称export EXEC_FILE="say.py"#代码、日志存放目录export DIR=`pwd`#代码类型export PRO_TYPE="python"#后台运行export JOB_TYPE="background"
原创
发布博客 2022.04.08 ·
723 阅读 ·
0 点赞 ·
0 评论

利用sed命令筛选日志中的ip

来看一下日志内容我们想通过sed命令将文本中的ip摘出来思路:1、先选出有ip地址的行cat ip.txt | grep 'inet addr'结果:inet addr:192.168.1.100 Bcast:192.168.1.255 Mask:255.255.255.02、摘出ip先删除inet addr:cat a.txt | grep 'inet addr' | sed 's/^.*addr://g'这里sed后边s/ 代表着从这行的开头^.*addr
原创
发布博客 2022.03.28 ·
687 阅读 ·
0 点赞 ·
0 评论

hdfs 批量删除某日期文件

今天在写表的时候发现没有把历史数据删除,所以要删除非本日日期的文件。1、首先将非本日日期的文件输出到txthdfs dfs -ls hdfs://warehouse/profile/ | grep -v 2022-03-09 >./2.txt2、利用awk编写删除脚本cat 2.txt | awk -F " " '{print "hadoop fs -rm -r " $8}' > ./1.sh3、运行脚本/bin/bash 1.sh...
原创
发布博客 2022.03.09 ·
2102 阅读 ·
0 点赞 ·
0 评论

hive join时主表空值过多产生数据倾斜问题

在各个表做关联的时候,如果主表过大且某个值过多再去join其他表很容易产生数据倾斜问题我们的思路就是要将数据均匀的分配到每个任务上这里我们以空值为例,使用rand(1)即可均匀分配数据select * from(select *,case when department in ('-999','') then rand(1) else department end as department2 from profile_v2.detail_member_user_info_base)
原创
发布博客 2022.02.22 ·
931 阅读 ·
0 点赞 ·
0 评论

python脚本补充两个日期之间的hive数据

#coding:utf-8import osimport datetime#获取之后日期def get_day(st,dt,format="%Y%m%d"): day = st + datetime.timedelta(days=dt) return day.strftime(format)#日期格式转换def format_date(t): return datetime.date(int(t[0:4]),int(t[4:6]),int(t[6:]))#执行.
原创
发布博客 2022.02.22 ·
36 阅读 ·
0 点赞 ·
0 评论

hive 计算两个经纬度之间的距离

select 6378137*2*ASIN(SQRT(POWER(SIN((lat1-lat2)*ACOS(-1)/360),2) + COS(lat1*ACOS(-1)/180)*COS(lat2*ACOS(-1)/180)*POWER(SIN((lng1-lng2)*ACOS(-1)/360),2)));lat1,lng1是第一个点的经纬度lat2,lng2是第二个点的经纬度python和java版本代码:python 计算两个经纬度之间的距离_小菜菜1223的博客-CSDN博客.
原创
发布博客 2022.02.14 ·
1420 阅读 ·
1 点赞 ·
0 评论

hive org.apache.hadoop.hive.ql.exec.CommonMergeJoinOperator.joinOneGroup 报错

今天hive任务报错,查看tez后台failed报错原因是然后关闭优化器再次尝试set hive.cbo.enable=false;运行成功。
原创
发布博客 2022.02.10 ·
727 阅读 ·
0 点赞 ·
0 评论

hive 分区表新增字段 刷新字段值

hive当天分区新增了字段,查询发现全是null1、删除分区ALTER TABLE test DROP PARTITION (dt='20220125');2、查看分区路径desc formatted ods.test partition(dt='20220124');3、重建分区ALTER TABLE ods.test add PARTITION (dt='20220125') location 'hdfs:///20220125';完毕。...
原创
发布博客 2022.01.25 ·
1591 阅读 ·
0 点赞 ·
0 评论

hive分区表添加字段

结尾加上CASCADE好像就不需要刷新历史分区元数据了?ALTER TABLE Database.TableName ADD COLUMNS(col1 STRING COMMENT '备注1') CASCADE;
原创
发布博客 2022.01.19 ·
2474 阅读 ·
0 点赞 ·
0 评论

hive 正则判断字符串是否包含字母

select * from goods_member_stat_v1 where dt='20220118' and sku_id regexp '.*[A-Za-z].*';
原创
发布博客 2022.01.19 ·
2648 阅读 ·
0 点赞 ·
0 评论

hive 利用-touchz保证任务完成,给予完成标记

我们每天跑完hive任务之后,怎样能判断是否任务完成呢。我目前公司的做法是,完成脚本任务后 touchz一个文件进去,后续检测是否完成直接检测文件是否存在即可。原理是:hive底层还是存储到hdfs上,相当于等任务完成之后给上一个标记,只检测目录存在还是存在风险。hadoopfs-touchz/team/dt=20220116/_SUCCESS...
原创
发布博客 2022.01.17 ·
118 阅读 ·
0 点赞 ·
0 评论

Python检测hive依赖表是否生成

提要:1、每天利用python执行hive sql脚本2、执行前检测依赖表是否生成3、依赖表如果生成成功会touch一个success文件到hdfs目录4、循环检测一定次数,失败抛出异常上代码:#coding:utf-8#@auth: lgyimport datetimeimport subprocessimport timeimport sys#获取昨天日期def get_yesterday(format="%Y%m%d"): today = datet
原创
发布博客 2022.01.17 ·
665 阅读 ·
0 点赞 ·
0 评论

hive、impala 求中位数

hive求中位数:(0.5参数可调)select percentile(cast(p as int),0.5) from student2;impala求中位数:select APPX_MEDIAN(error_uv_all) from xxx;
原创
发布博客 2022.01.05 ·
1259 阅读 ·
0 点赞 ·
0 评论

hive spark引擎推送数据到es(elasticsearch)

hive 写入数据到es
原创
发布博客 2021.12.29 ·
847 阅读 ·
0 点赞 ·
0 评论

shell hive补数,补充两个日期之间的数据

# 初始日期d=`date -d "20210901" "+%Y%m%d"`# 循环判断不等于结尾日期while [ $d -ne "20211201" ]do echo hive --hivevar today=$d -f /home/risk/guangyi/cmpid_group.sql hive --hivevar today=$d -f /home/risk/guangyi/cmpid_group.sql echo hive --hivevar today=$d.
原创
发布博客 2021.12.22 ·
785 阅读 ·
0 点赞 ·
0 评论
加载更多