自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(7)
  • 资源 (13)
  • 收藏
  • 关注

转载 L2 正则化

在机器学习中,无论是分类还是回归,都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有   (1)减少特征,留取最重要的特征。  (2)惩罚不重要的特征的权重。 但是通常情况下,我们不知道应该惩罚哪些特征的权重取值。通过正则化方法可以防止过拟合,提高泛化能力。 先来看看L2正则化方法。对于之前梯度下降讲到的损失函数来说,在代价函数后面加

2016-02-05 14:52:11 1571

原创 L1 与L2

L2 norm就是欧几里德距离 L1 norm就是绝对值相加,又称曼哈顿距离  搞统计的人总是喜欢搞什么“变量选择”,变量选择实际上的 限制条件是L0 Norm,但这玩艺不好整,于是就转而求L1 Norm(使用均方误差,就是Lasso ,当然在Lasso出来之前搞信号处理的就有过类似的工作),Bishop在书里对着RVM好一通 吹牛,其实RVM只是隐含着去近似了一个L0 Norm, 所以得到了

2016-02-03 17:30:12 776

原创 正则化理解(一)

机器学习中常常会提到或者用到正则化项,在对目标函数求最优值时,常常通过L1,L2等正则化项来防止过拟合现象,对于正则化可以用来防止模型过拟合现象的问题,展开下讨论,加深理解。先看着两句话1. 正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于

2016-02-03 17:23:31 4075 1

转载 高斯分布

正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的, 理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区

2016-02-03 16:39:43 3411

原创 拉普拉斯分布

在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布.由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布.两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布.如果随机变量的概率密度函数为那么它就是拉普拉斯分布.记为:其中

2016-02-03 16:37:23 27296 1

原创 贝叶斯法则与先验概率,后验概率

1.贝叶斯法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。2.先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被

2016-02-03 15:53:10 9433 4

原创 样本筛选与特征处理

基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本章节讲解一下样本选择和特征处理方面的一些方法技巧。在做样本训练前需要挑选样本,需要注意样本不平衡的问题,比如在定向广告预估点击率二元

2016-02-01 10:57:28 9505 1

商业银行数据资产管理体系建设实践报告.pdf

商业银行数据资产管理体系建设实践报告

2023-12-29

用友BIP数据资产入表解决方案 发布与详解.pdf

用友BIP数据资产入表解决方案 发布与详解

2023-12-29

text-classification-cnn-rnn.rar

基于textcnn的广告营销类文本识别模型代码,可运行,语料在本账户的另一个资源中可以下载,直接放到该项目的工程目录下,直接跑起来,基于textcnn在广告文本的二分类识别中还是不错的选择

2020-07-09

广告识别文本.rar

广告营销类,文本语料,人工收集标注出广告类文本和非广告类文本,可直接跑lgb等二分类模型,对于识别一些广告营销类文本的模型训练,是个不错的语料

2020-07-09

待审核的广告营销文本样例.rar

里面有几万个广告营销类的文本,进一步筛选下,可以作为广告文本识别分类模型训练样本,可能部分为正常新闻,需要人工再过滤下

2020-06-05

文本分类训练集.rar

文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理

2020-05-02

信用评级模型,信用评级模型的12堂课,

信用评级模型的12堂课,详细阐述了互联网金融行业的消费信用风控模型设计,比较经典的风控模型材料 值得下载学习好好看看

2018-05-22

基于行为评分的自动信用卡额度管理系统设计

基于行为评分的自动信用卡额度管理系统设计, 详细介绍了如何基于用户的行为特征来建设信用卡的额度评估系统 设计 架构

2018-05-22

基于SAS平台的信用风险评分卡研究

基于SAS平台的信用风险评分卡研究,希望能够帮助风控评分的研究者

2017-12-12

hadoop集群内lzo的安装与配置

hadoop集群内lzo的安装与配置 搞hadoop的朋友好好看看

2013-07-01

HBase_官方文档-中文翻译

HBase_官方文档-中文翻译,有助于大家研究下hbase原理

2013-07-01

应届生大礼包-通信行业篇

应届生大礼包-通信行业篇 有利于通信专业找工作 涉及到摩托 爱立信 诺西等知名公司 招聘方面的经验

2010-03-22

TI DSPC6000 汇编工具介绍

一本详细介绍TI MS320C6000系列汇编工具的书,对于C6000 DSP开发人员很好用

2010-03-22

LINUX基础知识入门介绍,一本学习linux系统的好书

这本书用来LINUX基础知识入门介绍,一本学习linux系统的好书,希望可以为大家学习linux做点帮助

2009-10-16

内存中引用与指针之间的使用与区别

深入理解引用与指针的关系从现象上看,指针在运行时可以改变其所指向的值,而引用一旦和某个对象绑定后就不再改变。这句话可以理解为:指针可以被重新赋值以指向另一个不同的对象。但是引用则总是指向在初始化时被指定的对象,以后不能改变,但是指定的对象其内容可以改变。

2009-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除