- 博客(28)
- 资源 (20)
- 问答 (1)
- 收藏
- 关注
原创 C4.5-Release8中Ross Quinlan对缺失值的处理
Environment:Ubuntu Linux 16.04GNU Make 4.1Built for x86_64-pc-linux-gnuCopyright © 1988-2014 Free Software Foundation, Inc.gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.11)DataSet:cr...
2018-10-31 16:16:06 514
转载 標準化,歸一化和的概念与适用范围整理
網上講得比較亂有些博客把歸一化和標準化認爲一致,主要是覺得normalization這個詞語翻譯成標準化和歸一化都沒啥問題Min-Max scaling(歸一化),也可以使用normalization,但是谷歌上不推薦,公式是:網上通俗的說法是:用來消除量鋼的影響。這個說法是不準確的,因爲有的特徵顯然需要比重大一些,有的需要比重小一些。這個“消除量鋼影響”的說法其實是默認數據特徵是一...
2018-10-31 12:58:31 316
转载 读取excel内容转为二维list
# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pd source_data=pd.read_csv("./crx-noless.xls",header=None)lists=source_data.values.tolist()
2018-10-30 16:23:17 876
原创 《统计学习方法》P74勘误
gR(D,A)=g(D,A)H(D)g_R(D,A)=\frac{g(D,A)}{H(D)}gR(D,A)=H(D)g(D,A)改为gR(D,A)=g(D,A)H(A)g_R(D,A)=\frac{g(D,A)}{H(A)}gR(D,A)=H(A)g(D,A)
2018-10-22 23:20:26 302
原创 C4.5最新版本Release8与MDL的关系的详细解读
最近联系了决策树的作者Quinlan教授,搞清了网上对C4.5的一些不够前沿的描述,《Inferring Decision Trees Using the Minimum Description Length Principle*》《Improved Use of Continuous Attributes in C4.5》对这两篇文章做下总结:我们一般希望决策树可以稍微简化点,要不然就太...
2018-10-21 15:48:26 413
原创 some understanding of《Inferring Decision Trees Using the Minimum Description Length Principle*》
《Inferring Decision Trees Using the Minimum Description Length Principle*》Information And Computation 80, 227-248(1989)I feel difficuly in computing the whole encoding bits of sequence mixed with fe...
2018-10-20 20:31:51 364 1
原创 some understanding of《Improved Use of Continuous Attributes in C4.5》
Here are formulas provided in“Improved Use of Continuous Attributes in C4.5”1996,Journal of Artificial Intelligence Research 4 (1996)77-90Info(D)=−∑j=1Cp(D,j)⋅log2(p(D,j))Info(D)=-\sum_{j=1}^{C}p(D...
2018-10-18 23:08:15 343 2
原创 通俗讲清楚为什么使用信息熵增益比而不是信息熵增益?
来举个简单的例子:数据集D(出去玩是标签)A代表属性,A=心情、天气心情 天气 出去玩好 晴朗 玩不好 下雨 不玩不好 刮风 不玩好了 ,现在建立决策树,根节点是啥?第一种方式(信息熵增益):令A=天气总熵S(D)=−13log213−23log223=0.918-\frac{1}{3}log_{2}\frac{1}{3}-\frac{2}{3}l...
2018-10-13 21:49:38 497
原创 ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制
处理数据对象:离散型数据信息计算方式:熵数据集:西瓜数据集2.0共17条数据训练集(用来建立决策树):西瓜数据集2.0中的第1,2,3,6,7,10,14,15,16,17,4请注意,书上说是10条,其实是上面列出的11条。验证集(用来对决策树剪枝):西瓜数据集2.0中的5,8,9,11,12,13注意书上特指了其中一些数据集,不可自己随意更改建造决策树的数据集,否则出不来书上的效果...
2018-10-13 18:42:48 3646 16
原创 python2与python3代码互相转化时注意事项
print不同:python2可以没括号python3必须有括号浅拷贝copy用法不同python3的用法是a=b.copy()python2的用法是a=copy.copy(b)浮点计算不同python2中2/3=0(想要小数的话,需要把分子和分母用float进行转化)python3中2/3=0.66666...
2018-10-12 21:40:11 536
原创 周志華《機器學習》圖4.4和图4.9繪制(轉載+增加熵顯示功能)
代碼來自參考鏈接:https://blog.csdn.net/leafage_m/article/details/79629074本文的貢獻是:①修正參考鏈接中,算法第3種情況中的投票問題的相關代碼,原文代碼函數makeTreeFull有誤,會導致生成图4.4的"虛擬節點"隨機出現好瓜和壞瓜②在原有代碼基礎上增加熵顯示功能----------------------------算法伪代...
2018-10-12 15:28:28 665
转载 ID3决策树中连续值的处理+周志华《機器學習》图4.8和图4.10绘制
转载自https://blog.csdn.net/Leafage_M/article/details/80137305用一句话总结这篇博客的内容就是:对于当前n条数据,相邻求平均值,得到n-1个分割值,要点如下:①连续数值特征的熵计算就是对上面的n-1个分割值不停尝试,尝试得到最佳分割值,利用分割值两侧的数据来计算条件熵进而最终计算最大熵增益.②如果当前同时存在离散值和连续值特征,那...
2018-10-12 14:37:07 1686
原创 python2.x和python3.x-matplotlib中文显示为方块-中文不显示-故障原理研究与解决
matplot的字体问题,有以下3种方式一种是从pylab中进行全局管理,可以管理任意实验相关的字体,可以是和matplot无关的实验的字体问题的管理一种是matplot的配置文件,进行全局管理一种是.py文件中临时加入配置语句网上具体的解决方案很多,但是我们会发现拿来用的时候,有时候见效,有时候又不见效,到底咋回事?注意一点,linux系统支持的中文字体≠matplotlib支持的中文...
2018-10-07 16:01:57 2894
原创 sklearn没有实现ID3算法
https://stackoverflow.com/questions/32277562/how-to-set-up-id3-algorith-in-scikit-learnhttp://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart根据这两个链接可知,其实sklearn的决策树...
2018-10-06 20:47:28 1665
原创 《统计学习方法》P59决策树绘制-sklearn版本
原始数据集见:https://blog.csdn.net/ruggier/article/details/78756447这个数据集的意思是:因为银行怕贷款申请者还不起贷款,所以要判断贷款者的各种情况,以便绝对是否对贷款申请者发放贷款。因为使用sklearn需要数字类型的数据,不能是字符串数据,所以下面对原始数据集进行转化。对照关系如下:#年龄:青年:0中年:1老年:2#有工作...
2018-10-06 15:40:54 460
转载 numpy.matrixlib.defmatrix.matrix写入csv文件
代码如下:import picklefrom numpy import *import numpyp=open('./svmDat27','r')my_matrix=pickle.load(p)# print type(di)#<class 'numpy.matrixlib.defmatrix.matrix'># print(di)numpy.savetxt('svmD...
2018-10-05 14:56:01 884
原创 机器学习实战第15章pegasos算法原理剖析以及伪代码和算法的对应关系
Pegasos原文是:http://www.ee.oulu.fi/research/imag/courses/Vedaldi/ShalevSiSr07.pdf还是挺长的,论文结构是:第1~6页:主要原理第7~15页:讲一些定理配合核函数使用的一些理论第16~26页:实验和参考文献对于急功近利的同学而言,这个博客就不要浪费时间看了,因为面试基本是用不到的。因为这是这本书的最后一章,本人...
2018-10-04 22:53:12 2656
转载 等式约束和不等式约束下的KKT条件求法
一、写在前面本篇内容主要写非线性规划等式约束和不等式约束下的KKT条件,主要通过举例说明。二、等式约束下的KKT条件1、 题目描述考虑等式约束的最小二乘问题minimizexTxsubject toAx=bminimize \quad x^Tx \\ subject \ to \quad Ax=bminimizexTxsubject toAx=b其中, A∈Rm∗n...
2018-10-04 17:26:17 5221
转载 次梯度(subgradient)
次导数设f在实数域上是一个凸函数,定义在数轴上的开区间内。这种函数不一定是处处可导的,例如绝对值函数f(x) = |x| 。对于下图来说,对于定义域中的任何x0,我们总可以作出一条直线,它通过点(x0, f(x0)),并且要么接触f的图像,要么在它的下方。直线(红线)的斜率称为函数的次导数。次导数的集合称为函数f在x0处的次微分。定义对于所有x,我们可以证明在点x_0 的次导数的集合...
2018-10-04 17:13:07 2393
转载 svm硬间隔与软间隔(转)
硬间隔:完全分类准确,其损失函数不存在;其损失值为0;只要找出两个异类正中间的那个平面;软间隔:允许一定量的样本分类错误;优化函数包括两个部分,一部分是点到平面的间隔距离,一部分是误分类的损失个数;C是惩罚系数,误分类个数在优化函数中的权重值;权重值越大,误分类的损失惩罚的越厉害。误分类的损失函数可分为hinge损失,指数损失,对率损失。而经常使用的或者说默认的是使用了损失函数为hinge损失的软...
2018-10-04 17:05:53 1622
转载 SVM入门(八)松弛变量(转)
转载地址:SVM入门(八)松弛变量现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样:圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的:就是图中黄色那个点,...
2018-10-04 17:05:08 314
转载 统计学习方法第四章课后习题(转载+重新排版+自己解读)
4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式(4.8)和条件概率估计公式(4.9)##################################################首先是(4.8)P(Y=ck)=∑i=1NI(yi=ck)NP({Y=c_k})=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}P(Y=ck)=N∑i=1NI(yi=...
2018-10-03 19:19:29 857
转载 统计学习方法-第二章课后习题答案整理
2.1Minsky和Papert指出:感知机因为是线性模型,所以不能表示复杂的函数,如异或。验证感知机为什么不能表示异或参考链接:https://blog.csdn.net/yangfeisc/article/details/454860672.2,换下数据即可,具体代码实现参考:https://blog.csdn.net/appleyuchi/article/details/829...
2018-10-02 23:09:20 1865 1
转载 统计学习方法例2.1实现(转)
对应李航《统计学习方法》P29的例2.1# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')# @Author: appleyuchi# @Date: 2018-10-02 21:54:30# @Last Modified by: appleyuchi# @Last Mod...
2018-10-02 21:58:03 700
转载 为什么“极大似然估计表达式的极值”可以用来估计参数
极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下:如果我通过极大似然估...
2018-10-02 20:48:10 2489 2
转载 李航第一章课后习题答案
统计学习方法的三要素是模型、策略、算法。伯努利模型是定义在取值为0与1的随机变量上的概率分布。统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝...
2018-10-02 19:01:24 384
转载 SVM和感知机的区别(转载+自己笔记)
感知机和SVM的区别:1、相同点都是属于监督学习的一种分类器(决策函数)。2、不同点感知机追求最大程度正确划分,最小化错误,效果类似紫线,很容易造成过拟合。支持向量机追求大致正确分类的同时,一定程度上避免过拟合,效果类似下图中的黑线。感知机使用的学习策略是梯度下降法,感知机的目标是:minw,bL(w,b)=−∑xi∈M⋅yi⋅(w⋅xi+b)min_{w,b}L(w,b)=-\sum...
2018-10-02 18:29:56 3760
ngrok-stable-linux-amd64.zip
2019-11-18
VBoxGuestAdditions_5.2.18.iso
2019-04-27
pearson证明卡方检验的原文-1900年
2018-12-07
用于ubuntu16.04下安装mongodb时缺少的库文件
2018-08-08
浙大版《概率论与数理统计》(第四版)第十一章实验数据、实验步骤与实验结果
2018-05-17
virtualbox-5.1_5.1.22-115126~Ubuntu~xenial_amd64.deb
2017-05-21
Visual Assist X 10.6.1823 破解版
2012-02-05
MSP仿真器(支持FET430PIF、FET430UIF、MSP430BSL对MSP430芯片进行编程)
2011-03-28
《半导体集成电路课》朱正涌(第二版)课后习题答案仿真(第四章)
2010-06-18
无warning无error,但不知为何没有输出的代码,求指点~
2015-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人