自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 吴恩达机器学习--第一课

一、什么是机器学习 Arthur Samuel:gives computer the ability to learn without being explicitly programmed. Tom Mitchell: if computers performance on T, as measured by P, improves withe experience E. 二、监督学习 Eg.housing price prediction dataset with right answers. regr

2020-06-17 09:32:39 131

原创 风控基础指标之决策树的特征选择

摘要:目前主要的决策树算法有ID3、C4.5和CART,在各种不同的软件选择使用决策数时,也有分裂依据的指标选择,主要包括熵(Entropy)、基尼不纯度(Gini impurity)和分类误差率(Misclassification);除了这些指标,C4.5和ID3在对比不同剪枝方法时还会有信息增益和信息增益比。本文以二分类问题为例,主要介绍不同指标的含义、这些指标可以衡量分枝好坏的原因(数学含义...

2020-03-31 14:21:30 1682

原创 chap4 origin of markov chain

讲述了Markov chain的发明过程(研究生第一课><) 从中心极限定理和大数定理讲起的,伯努利发现二项分布,发现在独立实验中,某次实验结果出现的次数服从正态分布。类似最终的事件发生的概率其实事前已经注定,比如有放回抽样一堆黑白棋子(数量1:2),那么最终抽到的黑白棋子的个数比会收敛于1:2。但是Nekrasov声明,最终结果收敛于固定的比例仅限于独立分布事件,而现实生活中的大部...

2020-03-25 17:53:39 100

翻译 chap3 measuring information

H为information value,N为要发送的字符个数,S为字符的space即集合范围,i为底层发送的signal个数。 情景模拟:Alice和Bob他们的系统发展的很好,然后他们就想要盈利,然后就卖出了自己的系统。即他人可以借助他们的系统传递信息。他们根据他人传递的信息的多少来收费。那么H就是他们的收费多少。目前他们的系统底层传输仍然是pluck,分强弱,那么一共就只有两种状态,即i...

2020-03-24 18:21:26 114

翻译 chap2 introduction to channel capacity

channel capacity为每秒钟可以传递的信息的容量大小。简单而言,即channel capacity = symbol rate(baud) * symbol space。symbol rate即上一章提到的每秒钟可以传递的有效信号的个数,symbol space 则是信号可以取值的集合个数。 情景模拟:仍然拿刚才的Alice和Bob举例,他们在玩通话游戏,用hard和soft plu...

2020-03-24 12:12:33 208

翻译 chap1 symbol rate

symbol rate指的是每秒钟产生的有信号的活动个数。 the no. of signaling events which can be squeezed togethoer in one second. 情景模拟:两个小伙伴Alice和Bob玩通话游戏,首先他们会发送字母,比如hello,字母一共有26个,这些字母被称作symbol。通话游戏中,他们用电话线联系,电话线只有两个信号(称为s...

2020-03-24 11:48:06 470

原创 ProgrammingHive笔记--Chapter1 Introduction

概要:由于数据价值越来越大,越来越多的公司存储海量数据,hadoop提供了这样的一个环境,运用分布式系统来管理数据,实现数据的有效的存储和管理。其主要利用mapreduce的模型来进行管理。其中面临的挑战是一般的用户如何和hadoop的底层系统进行交互,sql是结构化的查询语言,hive提供了一个用sql和hadoop交互沟通的语言方式,基本和sql相同但又不尽相同。 Hive适合静态数据处理,更适合数据仓库存储数据,做简单的分析。因为他没有办法做实时的联机数据交互请求(oltp,online transa

2016-12-18 23:37:55 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除