自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 数据挖掘——近似最近邻算法ANN之LSH

数据挖掘——近似最近邻算法ANN之LSH简介LSH算法LSH之相似网页查找——Simhash简介局部敏感哈希(Locality Sensitive Hashing,LSH)主要是为了处理高维度数据的查询和匹配等操作。关于这个算法,综合多个前辈的总结,总算是能搞懂的,现将我使用到的算法说明总结如下:【文本相似性计算】minHash和LSH算法大规模数据的相似度计算:LSH算法在此基础上,...

2019-11-27 19:22:11 1379

转载 数据挖掘——社区发现算法之LPA算法

机器学习——社区发现算法之LPA算法https://greatpowerlaw.wordpress.com/2013/02/08/community-detection-lpa/

2019-11-25 19:04:41 1660

原创 数据挖掘——关联规则算法之FP-tree

数据挖掘——关联规则算法之FP-tree前言FP-tree算法FP-tree的优缺点前言Apriori算法需要生成大量的候选集而且需要进行多次的扫描,对于那些大数据量的数据集很耗费时间。基于此问题,FP-tree算法不用生成候选集,只进行两次数据库扫描。简单来说是尽可能少得读取数据,尽可能的对读取到的数据进行压缩,属于空间换时间的算法。FP-tree算法FP-tree没有候选集,直接压缩数...

2019-11-24 20:32:15 4666 4

原创 数据挖掘——关联规则算法之Apriori

数据挖掘——关联规则一、关联规则的基本概念二、强关联规则三、关联规则挖掘算法一、关联规则的基本概念设I=i1,i2,...,imI={i_{1},i_{2},...,i_{m}}I=i1​,i2​,...,im​为所有项目的集合,D为事务数据库,事务T是一个项目子集(T⊑IT\sqsubseteq IT⊑I)。每一个事务具有唯一的事务标识TID。设A是一个由项目构成的集合,称为项集。事务T包含...

2019-11-22 21:07:25 1265

原创 数据挖掘——时间序列的预处理

数据挖掘——时间序列的预处理前言一、平稳非白噪声序列1、平稳时间序列的定义2、平稳性检验二、非平稳序列三、纯随机序列前言拿到一个观察值后,首先要对他的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。时间序列根据数据的分布可以分为纯随机序列和平稳非白噪声序列、非平稳序列。一、平稳非白噪声序列对于平稳非白...

2019-11-21 22:38:43 2174

原创 数据挖掘——时间序列算法之GARCH模型及其衍生模型

数据挖掘——时间序列算法之GARCH模型及其衍生模型

2019-11-21 20:47:58 2451 1

原创 数据挖掘——时间序列算法之ARCH模型

数据挖掘——时间序列算法之ARCH模型

2019-11-21 20:47:07 2626

原创 数据挖掘——时间序列算法之ARIMA模型

数据挖掘——时间序列算法之ARIMA模型

2019-11-21 20:46:29 11279 3

原创 数据挖掘——时间序列算法之ARMA模型

数据挖掘——时间序列算法之ARMA模型

2019-11-21 20:45:54 5104

原创 数据挖掘——时间序列算法之MA模型

数据挖掘——时间序列算法之MA模型

2019-11-21 20:45:20 4966

原创 数据挖掘——时间序列算法之AR模型

数据挖掘——时间序列算法之AR模型

2019-11-21 20:44:39 4505

原创 数据挖掘——时间序列算法之组合模型

数据挖掘——时间序列算法之组合模型

2019-11-21 20:42:31 2825

原创 数据挖掘——时间序列算法之趋势拟合法

数据挖掘——时间序列算法之趋势拟合法

2019-11-21 20:40:40 10396

原创 数据挖掘——时间序列算法之平滑法

数据挖掘——时间序列算法前言一、平滑法1、简述2、移动平均法2.1、简单移动平均2.2、加权移动平均法3、指数平滑法前言时间序列是许多数据挖掘任务重最常见的类型之一,同时也比较难处理。这篇记录下我所理解下的时间序列模型的算法。注意,这不是特征工程,而是算法(暂时是这样理解的,毕竟目前还没使用过这些方法做特征工程)。一、平滑法1、简述所谓时间序列平滑预测是指用平均的方法,把时间序列中的随机...

2019-11-21 20:39:07 15373 3

原创 数据挖掘项目——金融反欺诈

数据挖掘项目——金融反欺诈前言一、数据集获取二、特征工程1、读数据2、去除特殊字符3、删除属性4、提取标签三、构建模型前言该项目来自北风网,模型搭建很简单,该篇记录过程总结套路。一、数据集获取https://www.lendingclub.com/info/demand-and-credit-profile.action二、特征工程首先声明,该项目使用到的特征处理手段十分简单,但结果却...

2019-11-18 22:11:32 2088

转载 数据挖掘——为什么使用哑变量?哑变量有哪些作用?哪些情况应该使用哑变量?

数据挖掘——为什么使用哑变量?哑变量有哪些作用?哪些情况应该使用哑变量?直接给链接:https://www.cnblogs.com/sddai/p/8834373.html

2019-11-18 20:40:49 3404

原创 数据挖掘——特征选择

数据挖掘——特征选择前言特征选择1、sklearn.feature_selection.GenericUnivariateSelect——具有可配置策略的单变量特征选择器前言特征选择是数据挖掘人物中相当重要的一步,选择地好既能去除冗余特征减少不必要的计算,又能增加数据的表达性,增加算法的准确率。特征选择的方法很多,需要一个萝卜一个坑,所以需要找到最适合当前任务的特征选择方法。这篇介绍sklea...

2019-11-12 21:36:13 849

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除