Machine Learning
文章平均质量分 66
miao6664659
这个作者很懒,什么都没留下…
展开
-
SVM
下面是SVM的SMO实现,但是alpha的选择 没有按照启发式的方式,效率有点低下。# coding=utf-8from numpy import *import matplotlibimport matplotlib.pyplot as pltfrom matplotlib.patches import Circle#加载数据集def loadDataSet(fileName):转载 2013-08-19 15:39:11 · 976 阅读 · 0 评论 -
id3算法(python代码)
1. 该python实现没有考虑到overfitting。# coding=utf-8from numpy import *from math import log#下面的函数用来计算香农熵 H=sum(-p(xi)log(p(xi))) 其中xi指的是每种类别所占的比例def calcShannonEnt(dataSet): numEntries=len(dataSet)#转载 2013-08-16 20:19:35 · 2351 阅读 · 0 评论 -
KMeans biKMeans
KMeans 和 biKMeans都容易陷入局部最优,biKMeans的效果也不好 所以需要多次运行 找SSE最小的那个# coding=utf-8from numpy import *#Kmeans算法:可能收敛到局部最小值,在大规模数据集上收敛的比较慢#Kmeans是发现给定数据集K个簇的算法,k是由用户自己指定的#1. 随机选择K个初始值作为质心,然后将数据集中每个点分配到转载 2013-08-17 17:08:26 · 3235 阅读 · 0 评论 -
ML中相似性度量算法
http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一转载 2013-08-12 11:10:31 · 810 阅读 · 0 评论 -
决策树(一) ID3
ID3是决策树的一种。以下的内容出自1. 机器学习实战 Peter Harrington2. 统计学习方法 李航下面首先是一段python代码:# coding=utf-8 from math import logimport operatordef clacShannonEnt(dataSet):#计算给定数据集的香农熵 numEntries=len(data转载 2013-08-10 16:25:33 · 1151 阅读 · 0 评论 -
Linear Regression
# coding=utf-8from numpy import *import matplotlib.pyplot as pltdef loadDataSet(fileName): numFeat=len(open(fileName).readline().split('\t'))-1 dataMat=[] labelMat=[] fr=open(fileNa转载 2013-08-21 10:02:08 · 901 阅读 · 0 评论 -
SVM kernel(三)
# coding=utf-8from numpy import *import matplotlibimport matplotlib.pyplot as pltfrom matplotlib.patches import Circle#加载数据集def loadDataSet(fileName): dataMat=[] labelMat=[] fr=open(转载 2013-08-20 11:19:12 · 1792 阅读 · 0 评论 -
adaBoosting
from numpy import *def loadSimpleData(): datMat=matrix( [[1.,2.1], [2.,1.1], [1.3,1.], [1.,1.], [2.,1.]]) classLabels=[1.0,1.0,-1.0,-1.0,1.0] r转载 2013-08-20 15:21:21 · 1848 阅读 · 0 评论 -
启发式规则找alphas SVM(二)
# coding=utf-8from numpy import *import matplotlibimport matplotlib.pyplot as pltfrom matplotlib.patches import Circle#加载数据集def loadDataSet(fileName): dataMat=[] labelMat=[] fr=open(转载 2013-08-20 10:17:41 · 2155 阅读 · 0 评论 -
Logistic Regression
1. 使用梯度下降和随机梯度下降 有测试函数from numpy import *import matplotlib.pyplot as plt#加载数据集 其中dataMat中存储的是数据样本,而labelMat存储的类别标签def loadDataSet(): dataMat=[];labelMat=[] fr=open('testSet.txt') for转载 2013-08-17 19:19:02 · 855 阅读 · 0 评论