AI
iversongzy
一个在山脚下准备爬山的人
展开
-
决策树算法
决策树算法(ID3): 机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果(代表类或类分布)。 ID3: 信息熵(entropy):信息熵表示的是不确定度。信息的不确定性越大,熵就越大。(均匀分布时,不确定度最大,此时熵就最大)。当选择某个特征对数据集进行分原创 2017-04-16 21:36:27 · 529 阅读 · 0 评论 -
最近邻规则算法(KNN)
最近邻算法(KNN)是一个基于实例学习的分类算法。 如果一个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的大多数属于某一个类别,则该实例也属于这个类别。所选择的邻居都是已经正确分类的实例。 算法步骤: 1、把所有分类好的(有标签label)的数据(实例)作为训练集; 2、选择好参数K; 3、计算未知实例与所有已知实例的距离; 4、选择最近K个已知实例;原创 2017-04-20 21:12:36 · 3559 阅读 · 0 评论 -
简单线性回归
回归分析:用来建立方程模拟两个或以上变量之间如何关联 简单线性回归: 1、包含一个自变量X和一个y因变量Y 2、两个变量可以用一条直线模拟出来(多个变量叫做多元线性回归) 一、统计量:描述数据特征 1、均值(mean): 2、中位数(median):数据顺序排列,居于中间位置的变量 3、众数(mode):数据中出现次数最多的数 二、离散程度衡量 1、方差(varian原创 2017-05-03 19:32:33 · 1069 阅读 · 0 评论 -
拉格朗日插补法总结
下面是一个实现小程序 import pandas as pd from scipy.interpolate import lagrange inputfile = 'catering_sale.xls' data = pd.read_excel(inputfile) print data data[u'销量'][(data[u'销量'] 5000)] = None print data de原创 2017-05-08 16:59:44 · 1253 阅读 · 0 评论 -
Ubuntu16.04+tensorflow1.2+anaconda2安装配置
终于装上了tensorflow,其间真是走了不少弯路,在这里总结一下吧: 1.安装anaconda 这个没有什么好说的了,点击网址https://www.continuum.io/downloads下载吧,或者从清华的镜像中下载 因为我使用的是python2,所以我下载的是anaconda2 bash Anaconda2-4.4.0-Linux-x86_64.sh 配置下环境变量,原创 2017-07-06 14:50:28 · 510 阅读 · 0 评论 -
深度学习——提高网络性能(一)
一、偏差/方差: 深度学习很少谈论偏差,方差权衡问题,一般都是分开讨论: high bias(underfitting):在训练集上表现的不好 high variance(overfitting):在测试集表现的不好 如下图所示,可以通过training error and dev error 来判断拟合程度: 二、机器学习基础: 在机器学习中通常会考虑方差、偏差均原创 2017-09-22 20:31:32 · 3281 阅读 · 0 评论