一个打码的小年轻-CSDN博客

原创 XGB & LGB & GBDT 比较

XGB & LGB & GBDT 原理

2022-03-22 14:29:14 3750

原创 PU-Learning 原理介绍

pulearning原理介绍

2022-03-22 14:23:51 14258 2

一、算法原理1.1 适用场景1.孤立森林算法主要针对的是连续型结构化数据中的异常点。2.异常数据占总样本量的比例很小。3.异常点的特征值与正常点的差异很大。为了刻画异常数据的“不一样”，最直接的做法是利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度。而 Isolation Forest (Liu et al. 2011) 的想法要巧妙一些，它尝试直接去刻画数据的“疏离”(isolation)程度，而不借助其他量化指标。使用孤立森林的前提是，将异常点定义

2021-08-31 15:39:29 328

原创 python数据预处理

一、数据规范化import pymysqlimport pandas as pdimport numpy as npconn = pymysql.connect(host="",user="root",passwd="root",db="csdn")sql = "select price,comment from taob"data=pd.read_sql(sql,c...

2019-08-30 17:29:12 451

原创数据库json操作

一、hive生成json及解析生成jsonselect concat('{\"create_date\":\"',a.create_date,'\",\"mode\":\"',a.mode,'\",\"resident_province\":\"',a.resident_province,'\",\"province_amount\":\"',a.province_amount,'\",...

2019-06-12 15:53:39 3149

转载 hive 字符操作

1.字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度举例：hive> select length('abcedfg') from lxw_dual;72.字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反转结果举例：...

2019-03-24 11:06:19 675

原创关于mysql 和 hive 中的多条相同数据去重

1.mysql中有重复数据时去重：select g.* from (select*，apply_no as apply_id from lab_incre_undistinct) g group by g.apply_id此方法可以实现对整个表的去重。其中apply_no为原标中的标志性字段。2.hive中有重复数据时去重：select z.* from （select *,(r...

2019-03-08 10:21:15 1167

转载 sql中的 where 、group by 和 having 用法解析

转自：https://www.cnblogs.com/gqs92/archive/2017/04/26/6767973.html--sql中的 where 、group by 和 having 用法解析--如果要用到group by 一般用到的就是“每这个字” 例如说明现在有一个这样的表：每个部门有多少人就要用到分组的技术select DepartmentID as '部门名称',C...

2018-11-22 10:10:08 462

原创 python定时执行--月

下面的代码实现每个月执行：其中调用了一个判断是否为最后一天的方法 import datetimeimport timeimport pymysqlfrom isLastDayOfMonth import isLastDayMonthdef doSth1(): # 链接数据库 conn = pymysql.Connect( host='192.0...

2018-10-22 14:54:26 838

原创 python定时执行--每天

以下代码实现了python的每天定时执行：import datetimeimport timeimport pymysqldef doSth(): # print('test') conn = pymysql.Connect( host='192.0.9.169', port=5507, user='writer', ...

2018-10-22 14:50:40 8851

原创 MySQL中一些关于日期的操作

获取当前日期select curdate();#获取当月最后一天select last_day(curdate())；#获取本月的第一天select date_add(curdate(),interval -day(curdate())+1 day) ;#获取下个月的第一天select date_add(curdate() - day(curdate()) +1,interv...

2018-10-22 14:45:51 787

转载数据仓库数据模型之：极限存储–历史拉链表

转自：http://lxw1234.com/archives/2015/04/20.htm在数据仓库的数据模型设计过程中，经常会遇到这样的需求：数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，...

2018-10-16 09:36:28 202

转载数据仓库中历史拉链表的更新方法

转自：http://lxw1234.com/archives/2015/08/473.htm在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之：极限存储–历史拉链表》，使用这种方式即可以记录历史，而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设：数据仓库中订单历史表的刷新频率为一天，当天更新前一天的增量数据；如果一个订单在一天内有多次状态变化，则...

2018-10-16 09:34:20 515

转载普通索引和唯一索引的区别

转自：https://blog.csdn.net/u014071328/article/details/78780683唯一索引和普通索引使用的结构都是B-tree,执行时间复杂度都是O(log n)。1、普通索引　　普通索引（由关键字KEY或INDEX定义的索引）的唯一任务是加快对数据的访问速度。因此，应该只为那些最经常出现在查询条件（WHEREcolumn=）或排序条件（ORDER...

2018-10-11 10:13:15 8299

转载 Hive开发中使用变量的两种方法

转载自：https://www.cnblogs.com/cc-java/p/6898788.html在使用hive开发数据分析代码时，经常会遇到需要改变运行参数的情况，比如select语句中对日期字段值的设定，可能不同时间想要看不同日期的数据，这就需要能动态改变日期的值。如果开发量较大、参数多的话，使用变量来替代原来的字面值非常有必要，本文总结了几种可以向hive的SQL中传入参数的方法，以满...

2018-10-08 16:29:19 581

转载 Hive核心概念

Hive核心概念转自：https://blog.csdn.net/weixin_41756009/article/details/824615251.什么是hive基于 Hadoop 的一个数据仓库工具：hive本身不提供数据存储功能，使用HDFS做数据存储，hive也不分布式计算框架，hive的核心工作就是把sql语句翻译成MR程序hive也不提供资源调度系统，也是默认由...

2018-09-19 15:37:46 422

转载 Hive 的所有跟数据相关的概念

db: myhive, table: student 元数据：hivedb1、Hive的元数据指的是 myhive 和 student等等的库和表的相关的各种定义信息该元数据都是存储在mysql中的myhive是hive中的一个数据库的概念，其实就是HDFS上的一个文件夹，跟mysql没有多大的关系myhive是hive中的一个数据库，那么就会在元数据库hivedb当中的...

2018-09-19 14:56:00 268

原创 hive笔记-hive配置及基本操作

hive笔记 1、hive中涉及的概念： 1、hive介绍： 1、是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL）。 2、这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。（hql:hive query lan...

2018-09-17 16:12:28 540

原创 Linux实现两个服务器上两个数据库的表同步

最近遇到一个问题，需要将一个服务器上的oracle数据库中的表格的数据，导入到另外一个服务器上的mysql数据库中。由于两个服务器上使用的是Linux系统，并且对此系统不是很熟悉，解决起来很是艰难，下面将我想到的其中一个办法写下来，跟大家分享一下：第一步：在oracle服务器上，创建一个目录。以后就是在此目录下进行操作：1.创建一个文件 tabname，此文件内容为所有需要导的表的表名。...

2018-08-17 10:48:38 1944

原创 MySQL数据库为什么习惯用自增序列作为主键

对于这个问题需要从MySQL的索引以及存储引擎谈起：InnoDB的primary key为cluster index,除此之外，不能通过其他方式指定cluster index,如果InnoDB不指定primary key,InnoDB会找一个unique not null的field做cluster index,如果还没有这样的字段，则InnoDB会建一个非可见的系统默认的主键---row_i...

2018-07-30 16:29:04 3328

转载数字签名是什么？

今天，我读到一篇好文章。它用图片通俗易懂地解释了，"数字签名"（digital signature）和"数字证书"（digital certificate）到底是什么。======================================...

2018-07-11 10:57:13 202

原创 mysql可视化工具选型

1. NavicatNavicat是一个桌面版MySQL数据库管理和开发工具。和微软SQLServer的管理器很像，易学易用。Navicat使用图形化的用户界面，可以让用户使用和管理更为轻松。支持中文，有免费版本提供。2 MySQL Workbench（收费/免费）MySQL Workbench是为MySQL设计的ER/数据库建模工具。是著名的数据库设计工具DBDesigner4的继任...

2018-06-06 16:14:14 13685

原创 MySQL索引设计

一、索引类型1.1 InnoDB B-Tree 存储引擎使用了不同的方式把B-Tree索引保存到磁盘上，它们会表现出不同的性能。例如MyISAM使用前缀压缩的方式以减小索引；而InnoDB不会压缩索引。同时MyISAM的B-Tree索引按照行存储的物理位置来引用被索引的行，但是InnoDB按照主键值引用行。这些不同有各自的优点和缺点。 1.2 InnoDB聚簇索引(cluster index)...

2018-06-03 16:25:19 1687

原创 Oracle数据库命名规范

1.1约定u 数据库的schema,数据库对象如表、字段、索引、序列、存储过程等的命名约定；u 命名使用富有意义的大写英文词汇，尽量避免使用缩写，多个单词组成的，中间以下划线分割；u 各表之间相关字段列名,字段类型尽量一致；u 数值类型不使用varchar2,日期类型只用date,不允许使用varchar2;u 除数据库名称长度为1－8个字符，其余为1－30个字符，Databaselin...

2018-05-29 15:48:07 3598 2

weixin_42330675的博客

原创 loess

原创 LSTM 原理

原创 GAT原理