自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(8)
  • 资源 (13)
  • 收藏
  • 关注

原创 最大似然估计 (MLE)与 最大后验概率(MAP)在机器学习中的应用

最大似然估计 MLE给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。例如,对于线性回归,我们假定样本是服从正态分布,但是不知道均值和方差;或者对于逻辑回归,我们假定样本是服从二项分布,逻辑回归公式得到的是因变量y的概率P = g(x),x为自变量,通过逻辑函数得到一个概率值,y对应离散值为0后者1,但是不知道均值; 因此

2016-06-12 09:43:16 8934 1

原创 机器学习中的损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面

2016-06-08 17:29:19 96860 6

原创 回归问题中关于cost function 的选择

1 回归问题回归在数学上来说是给定一个点集,能够找一条曲线去拟合。这里面的“找一条”曲线不是漫无边际的找,而是先假定曲线的形式,如:直线、二次曲线等等,然后来学习确定曲线的各项参数。一方面,算法没有那么神奇,不能够告诉我们用什么类型的曲线拟合最好;另一方面,如果最初的假定就错了(用直线拟合最好,但是认为选择了二次曲线),最终的效果也是不好的。2 线性回归就是通过

2016-06-08 17:28:42 5267

原创 CART回归树对于特征的处理

CART算法的重要基础包含以下三个方面:(1)二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。CART算法采用一种二分递归分割的技术,算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景,对于连续特征的处理则与C4.5算

2016-06-07 14:36:17 9535 1

原创 C4.5 算法对于连续性属性的处理方法介绍

C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同。对于连续分布的特征,其处理方法是:先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化的方法:j的分到左子树,>vj的分到右子树。计算这N-1种情况下最大的信息增益率。另外

2016-06-07 13:08:38 20560 3

原创 基于卡方的独立性检验

本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立假设检验假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分

2016-06-07 10:26:16 15389

转载 熵的概念

熵的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个系统可以达到的状态数的一个度量,能达到的状态数越多熵越大。信息熵也基本是很类似的,是香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念,并且以后信息论也被作为一门单独的学科。信息

2016-06-05 00:52:46 4556

原创 基于用户协同过滤与基于物品协同过滤的比较

一、在适合用途上的比较。ItemCF是利用物品间的相似性来推荐的,所以假如用户的数量远远超过物品的数量,那么可以考虑使用ItemCF,比如购物网站,因其物品的数据相对稳定,因此计算物品的相似度时不但计算量较小,而且不必频繁更新;UserCF更适合做新闻、博客或者微内容的推荐系统,因为其内容更新频率非常高,特别是在社交网络中,UserCF是一个更好的选择,可以增加用户对推荐解释的信服程度。

2016-06-02 13:30:48 7893

商业银行数据资产管理体系建设实践报告.pdf

商业银行数据资产管理体系建设实践报告

2023-12-29

用友BIP数据资产入表解决方案 发布与详解.pdf

用友BIP数据资产入表解决方案 发布与详解

2023-12-29

text-classification-cnn-rnn.rar

基于textcnn的广告营销类文本识别模型代码,可运行,语料在本账户的另一个资源中可以下载,直接放到该项目的工程目录下,直接跑起来,基于textcnn在广告文本的二分类识别中还是不错的选择

2020-07-09

广告识别文本.rar

广告营销类,文本语料,人工收集标注出广告类文本和非广告类文本,可直接跑lgb等二分类模型,对于识别一些广告营销类文本的模型训练,是个不错的语料

2020-07-09

待审核的广告营销文本样例.rar

里面有几万个广告营销类的文本,进一步筛选下,可以作为广告文本识别分类模型训练样本,可能部分为正常新闻,需要人工再过滤下

2020-06-05

文本分类训练集.rar

文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理

2020-05-02

信用评级模型,信用评级模型的12堂课,

信用评级模型的12堂课,详细阐述了互联网金融行业的消费信用风控模型设计,比较经典的风控模型材料 值得下载学习好好看看

2018-05-22

基于行为评分的自动信用卡额度管理系统设计

基于行为评分的自动信用卡额度管理系统设计, 详细介绍了如何基于用户的行为特征来建设信用卡的额度评估系统 设计 架构

2018-05-22

基于SAS平台的信用风险评分卡研究

基于SAS平台的信用风险评分卡研究,希望能够帮助风控评分的研究者

2017-12-12

hadoop集群内lzo的安装与配置

hadoop集群内lzo的安装与配置 搞hadoop的朋友好好看看

2013-07-01

应届生大礼包-通信行业篇

应届生大礼包-通信行业篇 有利于通信专业找工作 涉及到摩托 爱立信 诺西等知名公司 招聘方面的经验

2010-03-22

LINUX基础知识入门介绍,一本学习linux系统的好书

这本书用来LINUX基础知识入门介绍,一本学习linux系统的好书,希望可以为大家学习linux做点帮助

2009-10-16

内存中引用与指针之间的使用与区别

深入理解引用与指针的关系从现象上看,指针在运行时可以改变其所指向的值,而引用一旦和某个对象绑定后就不再改变。这句话可以理解为:指针可以被重新赋值以指向另一个不同的对象。但是引用则总是指向在初始化时被指定的对象,以后不能改变,但是指定的对象其内容可以改变。

2009-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除