自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (10)
  • 收藏
  • 关注

原创 模型、数据分布稳定性

模型稳定性:群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))举个例子解释下,比如训练一个logistic回归模型,预测时候会有个类概率输出,p。在你的测试数据集上的输出设定为p1,将它从小到大排序后将数据集10等分(每组样本数一直,此为等宽分组),计算每等分组的最大最小预测的类概率值

2018-01-12 14:20:39 11888

原创 测试TF下的GPU性能

from __future__ import print_function'''Basic Multi GPU computation example using TensorFlow library.Author: Aymeric DamienProject: https://github.com/aymericdamien/TensorFlow-Examples/'''

2018-01-11 16:42:04 1646

转载 正则化方法:L1和L2 regularization、数据集扩增、dropout

正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitt

2017-07-20 15:05:54 398

转载 数据不平衡处理方法

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集可以

2017-06-24 19:16:02 5428

转载 从gbdt到xgboost

gbdt(又称Gradient BoostedDecision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。      xgboost是陈天奇大牛新开发的Boosting库。它是一个大规模、分布式的通用Gradient Boosting(GBDT)库,它在

2017-02-28 16:26:32 392

转载 xgboost原理

http://blog.csdn.net/a819825294/article/details/51188740

2017-02-28 14:49:14 574

原创 拓扑空间、距离空间、向量空间和内积空间

拓扑空间是最基本的,是集合+开集构成,这个空间里没有距离。就像人群+关系=社会一样。距离空间=拓扑空间+距离。这个距离的来源主要是定义出来的。距离空间是拓扑空间的一个子集,也可以理解为是一个子概念。同理向量空间又是距离空间的一个子集,子概念。对拓扑向量空间来说,它是一个度量空间当且仅当其有可数局部拓扑基(见Rudin的泛函分析,对一般拓扑空间来说的充要条件还要多一个,这就是NS度量化定理,见Munk

2016-11-24 18:05:57 7538

原创 精确率(Precision)、召回率(Recall)、F1-score、ROC、AUC

1. 基本概念 FN TP TN FPTP —— True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率 TN —— True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率 FP ——False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率 FN—— Fa

2016-11-22 17:52:30 6679

转载 MapReduce工作原理图文详解

转载:http://dataunion.org/22608.html 1.MapReduce作业运行流程流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。

2016-11-18 16:01:33 457

翻译 Hadoop分布式文件系统原理

Hadoop分布式文件系统(HDFS)

2016-11-17 16:22:14 602

code_document.zip

LTR(Learning to rank)是一种监督学习(Supervised Learning)的排序方法,已经被广泛应用到推荐与搜索等领域。传统的排序方法通过构造相关度函数,按照相关度进行排序。然而,影响相关度的因素很多,比如tf,idf等。传统的排序方法,很难融合多种因数,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息了,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。LTR采用机器学习很好地解决了这一问题。机器学习方法很容易融合多种特征,而且有成熟深厚的理论基础,并有一套成熟理论解决稀疏、过拟合等问题。

2020-11-12

大数据机器学习分享资料.zip

附件是机器学习分享资料,包含各自算法,如lightGBM、各种FM类算法及NLP、bert、特征变换使得指标更加稳定等

2020-10-29

lbdp_aifs_mlap.zip

模型实时服务脚本,对实时数据进行实时打分,然后分析标签数据,并具有模型监控等信息,方便监控模型是否宕机!

2020-10-29

Downloads.zip

linux操作及相应代码、模型服务、大数据hadoop执行语句、大数据挖掘算法(lightGBM改造)等资料

2020-10-29

spark_tensor_model

人工智能、深度学习

2019-03-14

spark_tensflow

实时计算、集群管理、大数据、云计算

2019-03-14

人工智能知识库spark_dnn算法

人工智能、深度学习、算法、机器学习,知识库、特征筛选等

2018-11-29

深度学习算法

深度神经网络算法,近几年在工业界和学术界新型的一个机器学习领域的流行话题。DNN算法成功的将以往的识别率提高了一个显著的档次。 人工神经网络起源于上世纪40年代,第一个神经元模型是1943年McCulloch和Pitts提出的,称为threshold logic,它可以实现一些逻辑运算的功能。自此以后,神经网络的研究分化为两个方向,一个专注于生物信息处理的过程,称为生物神经网络;一个专注于工程应用,称为人工神经网络。

2018-11-22

深度学习语义识别

语义识别 RNN,LSTM,GRU图形

2017-07-11

形象的解释神经网络激活函数的作用是什么?

形象的解释神经网络激活函数的作用是什么?

2017-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除