自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (2)
  • 收藏
  • 关注

原创 loess

loess

2022-03-23 14:14:02 427

原创 LSTM 原理

lstm原理

2022-03-23 14:12:14 9880

原创 GAT原理

gat

2022-03-22 14:31:10 4674 1

原创 XGB & LGB & GBDT 比较

XGB & LGB & GBDT 原理

2022-03-22 14:29:14 3528

原创 XGBoost 原理介绍

xgb原理

2022-03-22 14:27:04 10676

原创 PU-Learning 原理介绍

pulearning原理介绍

2022-03-22 14:23:51 12673 1

原创 LightGBM原理介绍

lightgbm算法原理介绍

2022-03-22 14:22:42 8608

原创 地址相似度计算

地址相似度计算

2022-02-08 16:33:56 3702 1

原创 算法-刷题

python算法刷题

2022-01-18 10:55:34 519

原创 【异常检测】isolation forest

一、算法原理1.1 适用场景1.孤立森林算法主要针对的是连续型结构化数据中的异常点。2.异常数据占总样本量的比例很小。3.异常点的特征值与正常点的差异很大。为了刻画异常数据的“不一样”,最直接的做法是利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度。而 Isolation Forest (Liu et al. 2011) 的想法要巧妙一些,它尝试直接去刻画数据的“疏离”(isolation)程度,而不借助其他量化指标。使用孤立森林的前提是,将异常点定义

2021-08-31 15:39:29 177

原创 python数据预处理

一、数据规范化import pymysqlimport pandas as pdimport numpy as npconn = pymysql.connect(host="",user="root",passwd="root",db="csdn")sql = "select price,comment from taob"data=pd.read_sql(sql,c...

2019-08-30 17:29:12 398

原创 数据库json操作

一、hive生成json及解析生成jsonselect concat('{\"create_date\":\"',a.create_date,'\",\"mode\":\"',a.mode,'\",\"resident_province\":\"',a.resident_province,'\",\"province_amount\":\"',a.province_amount,'\",...

2019-06-12 15:53:39 3064

转载 hive 字符操作

1.字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72.字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:...

2019-03-24 11:06:19 610

原创 关于mysql 和 hive 中的多条相同数据 去重

1.mysql中有重复数据时去重:select g.* from (select*,apply_no as apply_id from lab_incre_undistinct) g group by g.apply_id此方法可以实现对整个表的去重。其中apply_no为原标中的标志性字段。2.hive中有重复数据时去重:select z.* from (select *,(r...

2019-03-08 10:21:15 1078

转载 sql中的 where 、group by 和 having 用法解析

转自:https://www.cnblogs.com/gqs92/archive/2017/04/26/6767973.html--sql中的 where 、group by 和 having 用法解析--如果要用到group by 一般用到的就是“每这个字” 例如说明现在有一个这样的表:每个部门有多少人 就要用到分组的技术select DepartmentID as '部门名称',C...

2018-11-22 10:10:08 405

原创 python定时执行--月

下面的代码实现每个月执行:其中调用了一个判断是否为最后一天的方法 import datetimeimport timeimport pymysqlfrom isLastDayOfMonth import isLastDayMonthdef doSth1(): # 链接数据库 conn = pymysql.Connect( host='192.0...

2018-10-22 14:54:26 766

原创 python定时执行--每天

以下代码实现了python的每天定时执行:import datetimeimport timeimport pymysqldef doSth(): # print('test') conn = pymysql.Connect( host='192.0.9.169', port=5507, user='writer', ...

2018-10-22 14:50:40 8765

原创 MySQL中一些关于日期的操作

获取当前日期select curdate();#获取当月最后一天select last_day(curdate());#获取本月的第一天select date_add(curdate(),interval -day(curdate())+1 day) ;#获取下个月的第一天select date_add(curdate() - day(curdate()) +1,interv...

2018-10-22 14:45:51 724

转载 数据仓库数据模型之:极限存储–历史拉链表

转自:http://lxw1234.com/archives/2015/04/20.htm在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,...

2018-10-16 09:36:28 167

转载 数据仓库中历史拉链表的更新方法

转自:http://lxw1234.com/archives/2015/08/473.htm在之前介绍过数据仓库中的历史拉链表《数据仓库数据模型之:极限存储–历史拉链表》,使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据; 如果一个订单在一天内有多次状态变化,则...

2018-10-16 09:34:20 446

转载 普通索引和唯一索引的区别

转自:https://blog.csdn.net/u014071328/article/details/78780683唯一索引和普通索引使用的结构都是B-tree,执行时间复杂度都是O(log n)。1、普通索引  普通索引(由关键字KEY或INDEX定义的索引)的唯一任务是加快对数据的访问速度。因此,应该只为那些最经常出现在查询条件(WHEREcolumn=)或排序条件(ORDER...

2018-10-11 10:13:15 8212

转载 Hive开发中使用变量的两种方法

转载自:https://www.cnblogs.com/cc-java/p/6898788.html在使用hive开发数据分析代码时,经常会遇到需要改变运行参数的情况,比如select语句中对日期字段值的设定,可能不同时间想要看不同日期的数据,这就需要能动态改变日期的值。如果开发量较大、参数多的话,使用变量来替代原来的字面值非常有必要,本文总结了几种可以向hive的SQL中传入参数的方法,以满...

2018-10-08 16:29:19 492

转载 Hive核心概念

Hive核心概念转自:https://blog.csdn.net/weixin_41756009/article/details/824615251.什么是hive基于 Hadoop 的一个数据仓库工具:hive本身不提供数据存储功能,使用HDFS做数据存储,hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序hive也不提供资源调度系统,也是默认由...

2018-09-19 15:37:46 374

转载 Hive 的所有跟数据相关的概念

db: myhive,   table: student     元数据:hivedb1、Hive的元数据指的是 myhive 和 student等等的库和表的相关的各种定义信息该元数据都是存储在mysql中的myhive是hive中的一个数据库的概念,其实就是HDFS上的一个文件夹,跟mysql没有多大的关系myhive是hive中的一个数据库,那么就会在元数据库hivedb当中的...

2018-09-19 14:56:00 229

原创 hive笔记-hive配置及基本操作

hive笔记 1、hive中涉及的概念:  1、hive介绍:   1、是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)。   2、这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。(hql:hive query lan...

2018-09-17 16:12:28 476

原创 Linux实现两个服务器上两个数据库的表同步

最近遇到一个问题,需要将一个服务器上的oracle数据库中的表格的数据,导入到另外一个服务器上的mysql数据库中。由于两个服务器上使用的是Linux系统,并且对此系统不是很熟悉,解决起来很是艰难,下面将我想到的其中一个办法写下来,跟大家分享一下:第一步:在oracle服务器上,创建一个目录。以后就是在此目录下进行操作:1.创建一个文件 tabname,此文件内容为所有需要导的表的表名。...

2018-08-17 10:48:38 1882

原创 MySQL数据库为什么习惯用自增序列作为主键

对于这个问题需要从MySQL的索引以及存储引擎谈起:InnoDB的primary key为cluster index,除此之外,不能通过其他方式指定cluster index,如果InnoDB不指定primary key,InnoDB会找一个unique not null的field做cluster index,如果还没有这样的字段,则InnoDB会建一个非可见的系统默认的主键---row_i...

2018-07-30 16:29:04 3253

转载 数字签名是什么?

今天,我读到一篇好文章。 它用图片通俗易懂地解释了,"数字签名"(digital signature)和"数字证书"(digital certificate)到底是什么。======================================...

2018-07-11 10:57:13 177

原创 mysql可视化工具选型

1.      NavicatNavicat是一个桌面版MySQL数据库管理和开发工具。和微软SQLServer的管理器很像,易学易用。Navicat使用图形化的用户界面,可以让用户使用和管理更为轻松。支持中文,有免费版本提供。2  MySQL Workbench(收费/免费)MySQL Workbench是为MySQL设计的ER/数据库建模工具。是著名的数据库设计工具DBDesigner4的继任...

2018-06-06 16:14:14 9549

原创 MySQL索引设计

一、索引类型1.1  InnoDB B-Tree 存储引擎使用了不同的方式把B-Tree索引保存到磁盘上,它们会表现出不同的性能。例如MyISAM使用前缀压缩的方式以减小索引;而InnoDB不会压缩索引。同时MyISAM的B-Tree索引按照行存储的物理位置来引用被索引的行,但是InnoDB按照主键值引用行。这些不同有各自的优点和缺点。 1.2  InnoDB聚簇索引(cluster index)...

2018-06-03 16:25:19 1603

原创 Oracle数据库命名规范

1.1约定u  数据库的schema,数据库对象如表、字段、索引、序列、存储过程等的命名约定;u  命名使用富有意义的大写英文词汇,尽量避免使用缩写,多个单词组成的,中间以下划线分割;u  各表之间相关字段列名,字段类型尽量一致;u  数值类型不使用varchar2,日期类型只用date,不允许使用varchar2;u  除数据库名称长度为1-8个字符,其余为1-30个字符,Databaselin...

2018-05-29 15:48:07 3455 2

hive基础知识总结

本文档为总结的hive基础知识,包括hive服务、变量和属性、日志、表操作……等基础知识。

2018-09-18

SM2——SM3通用工具

SM2/SM3通用工具可以转换字符、bASE64编码与解码,加密解密、签名验证密钥生成,证书请求与写文件、密钥交换、点验证、SM2SM3BYTE转HEX BYTE转BASE64 生成SM2密钥对等。

2018-06-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除