一只蜉蝣-CSDN博客

原创 Oracle 用工具表实现列拆分多行

算出每行逗号的个数，并且关联工具表，限制逗号个数大于等于工具表的行数（几个号码就会扩展成几行），并新增一列字段（用来取第几个数）。注：利用工具表实现循环，工具表行数需要大于逗号个数。之后就可以用正则获取对应的电话号码。

2023-09-14 09:46:00 296 1

问题：各市随即抽样5000条数据聚合函数用group by分组，每个分组返回一个统计值。但不能对每行进行分析，得不到问题的结果。而分析函数采用partition by分组，并且每组每行都可以返回一个统计值。辅助row_number()函数和生成随机数函数，取rownum<=5000的数据。select *from (select ROW_NUMBER() over(partition by 市代码 order by RAND()) row_num ,t1.* from 表

2022-03-04 16:25:10 1178

转载 aop面向切面编程

假如没有aop，在做日志处理的时候，我们会在每个方法中添加日志处理，比如但大多数的日子处理代码是相同的，为了实现代码复用，我们可能把日志处理抽离成一个新的方法。但是这样我们仍然必须手动插入这些方法。但这样两个方法就是强耦合的，假如此时我们不需要这个功能了，或者想换成其他功能，那么就必须一个个修改。通过动态代理，可以在指定位置执行对应流程。这样就可以将一些横向的功能抽离出来形成一个独立的模块，然后在指定位置插入这些功能。这样的思想，被称为面向切面编程，亦即AOP。为了在指定位置执行这些横向的功能

2021-07-29 15:26:35 147

原创 hadoop中使用lzo压缩算法

在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间，不仅如此，lzo是基于block分块的，这样他就允许数据被分解成chunk，并行的被hadoop处理。这样的特点，就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的，所以当数据为text格式时，用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequencefile本身是分块的，所以sequencefile格式的文件，再配上lzo的压缩格式，就可实现lzo文件方式的sp

2021-07-29 14:50:08 1650

原创 pandas datetime格式只获取日期或时间

假设有字段“日期”，给新字段添加值，值为只获取日期data[‘new_column’] = pd.to_datetime(data.日期, format=’%Y/%m/%d’).dt.date另外还有dt.time，dt.hour，dt.day，dt.year

2021-06-21 17:42:05 1635

转载 Centos安装python3.7

https://blog.csdn.net/weixin_42109012/article/details/102655926

2021-04-26 22:44:04 160

转载 Secondary NameNode的作用

原文出自：https://blog.csdn.net/jenrey/article/details/80738389看到一篇好文，借此学习一下。Secondary NameNode:它究竟有什么作用？NameNodeNameNode主要是用来保存HDFS的元数据信息，比如命名空间信息，块信息等。当它运行的时候，这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。上面的这张图片展示了NameNode怎么把元数据保存到磁盘上的。这里有两个不同的文件：fsimage - 它是在NameNode

2020-09-03 16:40:58 399

qq534178181的博客