- 博客(31)
- 资源 (2)
- 收藏
- 关注
原创 【异常检测】isolation forest
一、算法原理1.1 适用场景1.孤立森林算法主要针对的是连续型结构化数据中的异常点。2.异常数据占总样本量的比例很小。3.异常点的特征值与正常点的差异很大。为了刻画异常数据的“不一样”,最直接的做法是利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度。而 Isolation Forest (Liu et al. 2011) 的想法要巧妙一些,它尝试直接去刻画数据的“疏离”(isolation)程度,而不借助其他量化指标。使用孤立森林的前提是,将异常点定义
2021-08-31 15:39:29 177
原创 python数据预处理
一、数据规范化import pymysqlimport pandas as pdimport numpy as npconn = pymysql.connect(host="",user="root",passwd="root",db="csdn")sql = "select price,comment from taob"data=pd.read_sql(sql,c...
2019-08-30 17:29:12 398
原创 数据库json操作
一、hive生成json及解析生成jsonselect concat('{\"create_date\":\"',a.create_date,'\",\"mode\":\"',a.mode,'\",\"resident_province\":\"',a.resident_province,'\",\"province_amount\":\"',a.province_amount,'\",...
2019-06-12 15:53:39 3064
转载 hive 字符操作
1.字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72.字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:...
2019-03-24 11:06:19 610
原创 关于mysql 和 hive 中的多条相同数据 去重
1.mysql中有重复数据时去重:select g.* from (select*,apply_no as apply_id from lab_incre_undistinct) g group by g.apply_id此方法可以实现对整个表的去重。其中apply_no为原标中的标志性字段。2.hive中有重复数据时去重:select z.* from (select *,(r...
2019-03-08 10:21:15 1078
转载 sql中的 where 、group by 和 having 用法解析
转自:https://www.cnblogs.com/gqs92/archive/2017/04/26/6767973.html--sql中的 where 、group by 和 having 用法解析--如果要用到group by 一般用到的就是“每这个字” 例如说明现在有一个这样的表:每个部门有多少人 就要用到分组的技术select DepartmentID as '部门名称',C...
2018-11-22 10:10:08 405
原创 python定时执行--月
下面的代码实现每个月执行:其中调用了一个判断是否为最后一天的方法 import datetimeimport timeimport pymysqlfrom isLastDayOfMonth import isLastDayMonthdef doSth1(): # 链接数据库 conn = pymysql.Connect( host='192.0...
2018-10-22 14:54:26 766
原创 python定时执行--每天
以下代码实现了python的每天定时执行:import datetimeimport timeimport pymysqldef doSth(): # print('test') conn = pymysql.Connect( host='192.0.9.169', port=5507, user='writer', ...
2018-10-22 14:50:40 8765
原创 MySQL中一些关于日期的操作
获取当前日期select curdate();#获取当月最后一天select last_day(curdate());#获取本月的第一天select date_add(curdate(),interval -day(curdate())+1 day) ;#获取下个月的第一天select date_add(curdate() - day(curdate()) +1,interv...
2018-10-22 14:45:51 724
转载 数据仓库数据模型之:极限存储–历史拉链表
转自:http://lxw1234.com/archives/2015/04/20.htm在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,...
2018-10-16 09:36:28 167
转载 数据仓库中历史拉链表的更新方法
转自:http://lxw1234.com/archives/2015/08/473.htm在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》,使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据; 如果一个订单在一天内有多次状态变化,则...
2018-10-16 09:34:20 446
转载 普通索引和唯一索引的区别
转自:https://blog.csdn.net/u014071328/article/details/78780683唯一索引和普通索引使用的结构都是B-tree,执行时间复杂度都是O(log n)。1、普通索引 普通索引(由关键字KEY或INDEX定义的索引)的唯一任务是加快对数据的访问速度。因此,应该只为那些最经常出现在查询条件(WHEREcolumn=)或排序条件(ORDER...
2018-10-11 10:13:15 8212
转载 Hive开发中使用变量的两种方法
转载自:https://www.cnblogs.com/cc-java/p/6898788.html在使用hive开发数据分析代码时,经常会遇到需要改变运行参数的情况,比如select语句中对日期字段值的设定,可能不同时间想要看不同日期的数据,这就需要能动态改变日期的值。如果开发量较大、参数多的话,使用变量来替代原来的字面值非常有必要,本文总结了几种可以向hive的SQL中传入参数的方法,以满...
2018-10-08 16:29:19 492
转载 Hive核心概念
Hive核心概念转自:https://blog.csdn.net/weixin_41756009/article/details/824615251.什么是hive基于 Hadoop 的一个数据仓库工具:hive本身不提供数据存储功能,使用HDFS做数据存储,hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序hive也不提供资源调度系统,也是默认由...
2018-09-19 15:37:46 374
转载 Hive 的所有跟数据相关的概念
db: myhive, table: student 元数据:hivedb1、Hive的元数据指的是 myhive 和 student等等的库和表的相关的各种定义信息该元数据都是存储在mysql中的myhive是hive中的一个数据库的概念,其实就是HDFS上的一个文件夹,跟mysql没有多大的关系myhive是hive中的一个数据库,那么就会在元数据库hivedb当中的...
2018-09-19 14:56:00 229
原创 hive笔记-hive配置及基本操作
hive笔记 1、hive中涉及的概念: 1、hive介绍: 1、是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)。 2、这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。(hql:hive query lan...
2018-09-17 16:12:28 476
原创 Linux实现两个服务器上两个数据库的表同步
最近遇到一个问题,需要将一个服务器上的oracle数据库中的表格的数据,导入到另外一个服务器上的mysql数据库中。由于两个服务器上使用的是Linux系统,并且对此系统不是很熟悉,解决起来很是艰难,下面将我想到的其中一个办法写下来,跟大家分享一下:第一步:在oracle服务器上,创建一个目录。以后就是在此目录下进行操作:1.创建一个文件 tabname,此文件内容为所有需要导的表的表名。...
2018-08-17 10:48:38 1882
原创 MySQL数据库为什么习惯用自增序列作为主键
对于这个问题需要从MySQL的索引以及存储引擎谈起:InnoDB的primary key为cluster index,除此之外,不能通过其他方式指定cluster index,如果InnoDB不指定primary key,InnoDB会找一个unique not null的field做cluster index,如果还没有这样的字段,则InnoDB会建一个非可见的系统默认的主键---row_i...
2018-07-30 16:29:04 3253
转载 数字签名是什么?
今天,我读到一篇好文章。 它用图片通俗易懂地解释了,"数字签名"(digital signature)和"数字证书"(digital certificate)到底是什么。======================================...
2018-07-11 10:57:13 177
原创 mysql可视化工具选型
1. NavicatNavicat是一个桌面版MySQL数据库管理和开发工具。和微软SQLServer的管理器很像,易学易用。Navicat使用图形化的用户界面,可以让用户使用和管理更为轻松。支持中文,有免费版本提供。2 MySQL Workbench(收费/免费)MySQL Workbench是为MySQL设计的ER/数据库建模工具。是著名的数据库设计工具DBDesigner4的继任...
2018-06-06 16:14:14 9549
原创 MySQL索引设计
一、索引类型1.1 InnoDB B-Tree 存储引擎使用了不同的方式把B-Tree索引保存到磁盘上,它们会表现出不同的性能。例如MyISAM使用前缀压缩的方式以减小索引;而InnoDB不会压缩索引。同时MyISAM的B-Tree索引按照行存储的物理位置来引用被索引的行,但是InnoDB按照主键值引用行。这些不同有各自的优点和缺点。 1.2 InnoDB聚簇索引(cluster index)...
2018-06-03 16:25:19 1603
原创 Oracle数据库命名规范
1.1约定u 数据库的schema,数据库对象如表、字段、索引、序列、存储过程等的命名约定;u 命名使用富有意义的大写英文词汇,尽量避免使用缩写,多个单词组成的,中间以下划线分割;u 各表之间相关字段列名,字段类型尽量一致;u 数值类型不使用varchar2,日期类型只用date,不允许使用varchar2;u 除数据库名称长度为1-8个字符,其余为1-30个字符,Databaselin...
2018-05-29 15:48:07 3455 2
SM2——SM3通用工具
2018-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人