自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (20)
  • 问答 (1)
  • 收藏
  • 关注

原创 C4.5-Release8中Ross Quinlan对缺失值的处理

Environment:Ubuntu Linux 16.04GNU Make 4.1Built for x86_64-pc-linux-gnuCopyright © 1988-2014 Free Software Foundation, Inc.gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.11)DataSet:cr...

2018-10-31 16:16:06 514

转载 標準化,歸一化和的概念与适用范围整理

網上講得比較亂有些博客把歸一化和標準化認爲一致,主要是覺得normalization這個詞語翻譯成標準化和歸一化都沒啥問題Min-Max scaling(歸一化),也可以使用normalization,但是谷歌上不推薦,公式是:網上通俗的說法是:用來消除量鋼的影響。這個說法是不準確的,因爲有的特徵顯然需要比重大一些,有的需要比重小一些。這個“消除量鋼影響”的說法其實是默認數據特徵是一...

2018-10-31 12:58:31 316

转载 读取excel内容转为二维list

# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pd source_data=pd.read_csv("./crx-noless.xls",header=None)lists=source_data.values.tolist()

2018-10-30 16:23:17 876

原创 《统计学习方法》P74勘误

gR(D,A)=g(D,A)H(D)g_R(D,A)=\frac{g(D,A)}{H(D)}gR​(D,A)=H(D)g(D,A)​改为gR(D,A)=g(D,A)H(A)g_R(D,A)=\frac{g(D,A)}{H(A)}gR​(D,A)=H(A)g(D,A)​

2018-10-22 23:20:26 302

原创 C4.5最新版本Release8与MDL的关系的详细解读

最近联系了决策树的作者Quinlan教授,搞清了网上对C4.5的一些不够前沿的描述,《Inferring Decision Trees Using the Minimum Description Length Principle*》《Improved Use of Continuous Attributes in C4.5》对这两篇文章做下总结:我们一般希望决策树可以稍微简化点,要不然就太...

2018-10-21 15:48:26 413

原创 some understanding of《Inferring Decision Trees Using the Minimum Description Length Principle*》

《Inferring Decision Trees Using the Minimum Description Length Principle*》Information And Computation 80, 227-248(1989)I feel difficuly in computing the whole encoding bits of sequence mixed with fe...

2018-10-20 20:31:51 364 1

原创 some understanding of《Improved Use of Continuous Attributes in C4.5》

Here are formulas provided in“Improved Use of Continuous Attributes in C4.5”1996,Journal of Artificial Intelligence Research 4 (1996)77-90Info(D)=−∑j=1Cp(D,j)⋅log2(p(D,j))Info(D)=-\sum_{j=1}^{C}p(D...

2018-10-18 23:08:15 343 2

原创 ubuntu16.04終端補全忽略大小寫

gedit ~/.inputrcset completion-ignore-case on

2018-10-15 19:18:52 688

原创 通俗讲清楚为什么使用信息熵增益比而不是信息熵增益?

来举个简单的例子:数据集D(出去玩是标签)A代表属性,A=心情、天气心情 天气 出去玩好 晴朗 玩不好 下雨 不玩不好 刮风 不玩好了 ,现在建立决策树,根节点是啥?第一种方式(信息熵增益):令A=天气总熵S(D)=−13log213−23log223=0.918-\frac{1}{3}log_{2}\frac{1}{3}-\frac{2}{3}l...

2018-10-13 21:49:38 497

原创 ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制

处理数据对象:离散型数据信息计算方式:熵数据集:西瓜数据集2.0共17条数据训练集(用来建立决策树):西瓜数据集2.0中的第1,2,3,6,7,10,14,15,16,17,4请注意,书上说是10条,其实是上面列出的11条。验证集(用来对决策树剪枝):西瓜数据集2.0中的5,8,9,11,12,13注意书上特指了其中一些数据集,不可自己随意更改建造决策树的数据集,否则出不来书上的效果...

2018-10-13 18:42:48 3646 16

原创 python2与python3代码互相转化时注意事项

print不同:python2可以没括号python3必须有括号浅拷贝copy用法不同python3的用法是a=b.copy()python2的用法是a=copy.copy(b)浮点计算不同python2中2/3=0(想要小数的话,需要把分子和分母用float进行转化)python3中2/3=0.66666...

2018-10-12 21:40:11 536

原创 周志華《機器學習》圖4.4和图4.9繪制(轉載+增加熵顯示功能)

代碼來自參考鏈接:https://blog.csdn.net/leafage_m/article/details/79629074本文的貢獻是:①修正參考鏈接中,算法第3種情況中的投票問題的相關代碼,原文代碼函數makeTreeFull有誤,會導致生成图4.4的"虛擬節點"隨機出現好瓜和壞瓜②在原有代碼基礎上增加熵顯示功能----------------------------算法伪代...

2018-10-12 15:28:28 665

转载 ID3决策树中连续值的处理+周志华《機器學習》图4.8和图4.10绘制

转载自https://blog.csdn.net/Leafage_M/article/details/80137305用一句话总结这篇博客的内容就是:对于当前n条数据,相邻求平均值,得到n-1个分割值,要点如下:①连续数值特征的熵计算就是对上面的n-1个分割值不停尝试,尝试得到最佳分割值,利用分割值两侧的数据来计算条件熵进而最终计算最大熵增益.②如果当前同时存在离散值和连续值特征,那...

2018-10-12 14:37:07 1686

原创 python2.x和python3.x-matplotlib中文显示为方块-中文不显示-故障原理研究与解决

matplot的字体问题,有以下3种方式一种是从pylab中进行全局管理,可以管理任意实验相关的字体,可以是和matplot无关的实验的字体问题的管理一种是matplot的配置文件,进行全局管理一种是.py文件中临时加入配置语句网上具体的解决方案很多,但是我们会发现拿来用的时候,有时候见效,有时候又不见效,到底咋回事?注意一点,linux系统支持的中文字体≠matplotlib支持的中文...

2018-10-07 16:01:57 2894

原创 sklearn没有实现ID3算法

https://stackoverflow.com/questions/32277562/how-to-set-up-id3-algorith-in-scikit-learnhttp://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart根据这两个链接可知,其实sklearn的决策树...

2018-10-06 20:47:28 1665

原创 《统计学习方法》P59决策树绘制-sklearn版本

原始数据集见:https://blog.csdn.net/ruggier/article/details/78756447这个数据集的意思是:因为银行怕贷款申请者还不起贷款,所以要判断贷款者的各种情况,以便绝对是否对贷款申请者发放贷款。因为使用sklearn需要数字类型的数据,不能是字符串数据,所以下面对原始数据集进行转化。对照关系如下:#年龄:青年:0中年:1老年:2#有工作...

2018-10-06 15:40:54 460

转载 numpy.matrixlib.defmatrix.matrix写入csv文件

代码如下:import picklefrom numpy import *import numpyp=open('./svmDat27','r')my_matrix=pickle.load(p)# print type(di)#<class 'numpy.matrixlib.defmatrix.matrix'># print(di)numpy.savetxt('svmD...

2018-10-05 14:56:01 884

原创 机器学习实战第15章pegasos算法原理剖析以及伪代码和算法的对应关系

Pegasos原文是:http://www.ee.oulu.fi/research/imag/courses/Vedaldi/ShalevSiSr07.pdf还是挺长的,论文结构是:第1~6页:主要原理第7~15页:讲一些定理配合核函数使用的一些理论第16~26页:实验和参考文献对于急功近利的同学而言,这个博客就不要浪费时间看了,因为面试基本是用不到的。因为这是这本书的最后一章,本人...

2018-10-04 22:53:12 2656

转载 等式约束和不等式约束下的KKT条件求法

一、写在前面本篇内容主要写非线性规划等式约束和不等式约束下的KKT条件,主要通过举例说明。二、等式约束下的KKT条件1、 题目描述考虑等式约束的最小二乘问题minimizexTxsubject toAx=bminimize \quad x^Tx \\ subject \ to \quad Ax=bminimizexTxsubject toAx=b其中, A∈Rm∗n...

2018-10-04 17:26:17 5221

转载 次梯度(subgradient)

次导数设f在实数域上是一个凸函数,定义在数轴上的开区间内。这种函数不一定是处处可导的,例如绝对值函数f(x) = |x| 。对于下图来说,对于定义域中的任何x0,我们总可以作出一条直线,它通过点(x0, f(x0)),并且要么接触f的图像,要么在它的下方。直线(红线)的斜率称为函数的次导数。次导数的集合称为函数f在x0处的次微分。定义对于所有x,我们可以证明在点x_0 的次导数的集合...

2018-10-04 17:13:07 2393

转载 svm硬间隔与软间隔(转)

硬间隔:完全分类准确,其损失函数不存在;其损失值为0;只要找出两个异类正中间的那个平面;软间隔:允许一定量的样本分类错误;优化函数包括两个部分,一部分是点到平面的间隔距离,一部分是误分类的损失个数;C是惩罚系数,误分类个数在优化函数中的权重值;权重值越大,误分类的损失惩罚的越厉害。误分类的损失函数可分为hinge损失,指数损失,对率损失。而经常使用的或者说默认的是使用了损失函数为hinge损失的软...

2018-10-04 17:05:53 1622

转载 SVM入门(八)松弛变量(转)

转载地址:SVM入门(八)松弛变量现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样:圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的:就是图中黄色那个点,...

2018-10-04 17:05:08 314

转载 统计学习方法第四章课后习题(转载+重新排版+自己解读)

4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式(4.8)和条件概率估计公式(4.9)##################################################首先是(4.8)P(Y=ck)=∑i=1NI(yi=ck)NP({Y=c_k})=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}P(Y=ck​)=N∑i=1N​I(yi​=...

2018-10-03 19:19:29 857

转载 统计学习方法-第二章课后习题答案整理

2.1Minsky和Papert指出:感知机因为是线性模型,所以不能表示复杂的函数,如异或。验证感知机为什么不能表示异或参考链接:https://blog.csdn.net/yangfeisc/article/details/454860672.2,换下数据即可,具体代码实现参考:https://blog.csdn.net/appleyuchi/article/details/829...

2018-10-02 23:09:20 1865 1

转载 统计学习方法例2.1实现(转)

对应李航《统计学习方法》P29的例2.1# -*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf-8')# @Author: appleyuchi# @Date: 2018-10-02 21:54:30# @Last Modified by: appleyuchi# @Last Mod...

2018-10-02 21:58:03 700

转载 为什么“极大似然估计表达式的极值”可以用来估计参数

极大似然估计,通俗理解来说,就是在假定整体模型分布已知,利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下:如果我通过极大似然估...

2018-10-02 20:48:10 2489 2

转载 李航第一章课后习题答案

统计学习方法的三要素是模型、策略、算法。伯努利模型是定义在取值为0与1的随机变量上的概率分布。统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝...

2018-10-02 19:01:24 384

转载 SVM和感知机的区别(转载+自己笔记)

感知机和SVM的区别:1、相同点都是属于监督学习的一种分类器(决策函数)。2、不同点感知机追求最大程度正确划分,最小化错误,效果类似紫线,很容易造成过拟合。支持向量机追求大致正确分类的同时,一定程度上避免过拟合,效果类似下图中的黑线。感知机使用的学习策略是梯度下降法,感知机的目标是:minw,bL(w,b)=−∑xi∈M⋅yi⋅(w⋅xi+b)min_{w,b}L(w,b)=-\sum...

2018-10-02 18:29:56 3760

ngrok-stable-linux-amd64.zip

用于内网穿透,穿透教程可以参考博客: https://blog.csdn.net/appleyuchi/article/details/103128051

2019-11-18

tor-browser-linux64-8.5.4_en-US.tar.xz

适用于linux 64位的tor浏览器,仅供学习。安全与自由总是相对的。

2019-07-11

VBoxGuestAdditions_5.2.18.iso

适配于5.2.18的virtualbox,其他版本的没有测试过,可以适用于windows下面以及Linux下面的功能增强。

2019-04-27

pearson证明卡方检验的原文-1900年

pearson证明卡方检验的原文-1900年 里面的证明公式有些复杂,如果是现代的证明,可以参考 https://blog.csdn.net/appleyuchi/article/details/84567158 来阅读

2018-12-07

用于ubuntu16.04下安装mongodb时缺少的库文件

用于ubuntu16.04下安装mongodb时缺少的库文件,放在/usr/lib64下面,同时也需要设置数据库变量LD_LIBRARY_PATH

2018-08-08

浙大版《概率论与数理统计》(第四版)第十一章实验数据、实验步骤与实验结果

浙大版《概率论与数理统计》(第四版)第十一章实验数据、实验步骤与实验结果 内容包括: 1、概述(这个略过没有实验) 2、箱线图 3、假设实验 (一)假设检验问题p值的求法 (二)两个等方差正态总体的均值差的检验 4、方差分析 (一)单因素方差分析 (二)双因素无重复试验的方差分析 (三)双因素等重复试验的方差分析 5、一元线性回归 6、bootstrap方法,宏,VBA

2018-05-17

virtualbox-5.1_5.1.22-115126~Ubuntu~xenial_amd64.deb

virtualbox-5.1_5.1.22-115126~Ubuntu~xenial_amd64.deb 在ubuntu16.04 64位系统下安装并成功使用,其他系统没试过,慎下

2017-05-21

wine-thunder_0.6-2_all.deb

linux下面的迅雷安装包

2017-05-18

( Prentice.Hall.MIPS.Assembly.Language.Programming

MIPS体系结构的汇编语言,英文版

2016-07-03

Visual Assist X 10.6.1823 破解版

解压后,把VA_X.dll覆盖安装目下文件即可 大家注意: 不要下载最新的Visual Assist X,因为网上最新的破解补丁争对的是旧版本的Visual Assist X

2012-02-05

实用双向可控硅应用500例

实用双向可控硅应用500例 实用双向可控硅应用500例

2011-03-28

MSP仿真器(支持FET430PIF、FET430UIF、MSP430BSL对MSP430芯片进行编程)

MSP仿真器(支持FET430PIF、FET430UIF、MSP430BSL对MSP430芯片进行编程)

2011-03-28

protel 99se 教程

protel 99se 从入门到提高,觉得还不错呵呵

2011-03-12

电子技术基础试题汇编 数字部分 童诗白 何金茂

绝对可用 破解版 电子技术基础试题汇编 数字部分

2010-07-27

《半导体集成电路课》朱正涌(第二版)课后习题答案仿真(第四章)

该仿真文件与《半导体集成电路》(第2版)(清华大学信息科学技术学院教材——微电子光电子系列)第四章TTL课后习题中所有电路相 匹配,用Multisim软件可打开,没有软件的朋友从仿真的数据单中可直接看出电路的逻辑结果 郑重声明: 以上所作仿真文件仅仅是为了便于大家学习,绝无侵权之意,请勿用于非法用途,谢谢! 需要对该章的理论分析支持的请加 QQ:753743312 欢迎交流,谢谢! 祝学习愉快!

2010-06-18

c51函数库c51函数库

c51函数库,包含所有函数命令c51函数库,包含所有函数命令

2009-05-14

2007年 上半年网络

等级考试阿飞萨发vasfsafsaf苏丹国三个va

2009-02-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除