机器学习
文章平均质量分 68
dif_dis
狂奔的蜗牛>>>>
展开
-
k近邻算法
import numpy as npimport operatordef create_data(): """创建数据样本""" group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1],[0,0.2]]) #样本点 labels=['A','A','B','B','B'] #对应的样本类别 return gr翻译 2016-06-15 16:02:35 · 419 阅读 · 0 评论 -
线性回归和局部加权线性回归
#coding=utf-8import ccsqlfrom numpy import *def load_data(fileName): #读取数据 numFeat = len(open(fileName).readline().split('\t')) - 1 dataMat = []; labelMat = [] fr = open(fileNa翻译 2016-07-22 11:38:07 · 1044 阅读 · 0 评论 -
CART 分类回归树、模型树, 及REP后剪枝
#coding=utf-8from numpy import *def load_data(file_name): data_mat=[] fr=open(file_name) for line in fr.readlines(): curline=line.strip().split('\t') fltline=map(float,cu翻译 2016-08-06 14:40:21 · 2980 阅读 · 1 评论 -
Apriori算法
#coding=utf-8def load_data(): return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]def create_c1(data): #把数据中单个元素转成列表格式,且不重复。 c1=[] for transaction in data: for item in transaction:翻译 2016-08-16 17:33:36 · 345 阅读 · 0 评论 -
支持向量机 smo算法
#coding=utf-8import refrom numpy import *def load_data(): data=[];label=[] o=open('test.txt') for line in o.readlines(): line_arr=re.split(r'(-\d*|\d*)',line.strip()) da翻译 2016-06-29 15:14:10 · 530 阅读 · 0 评论 -
svm 核函数
#coding=utf-8import refrom numpy import *def load_data(): data=[];label=[] o=open('test.txt') for line in o.readlines(): line_arr=re.split(r'(-\d*|\d*)',line.strip()) da翻译 2016-06-30 11:45:05 · 377 阅读 · 0 评论 -
完整AdaBoost算法
#coding=utf-8from numpy import *#coding=utf-8import refrom numpy import *def load_data(file_name): open_file=open(file_name) read=open_file.readlines() data=re.split(pattern='!',strin翻译 2016-07-21 12:40:34 · 1235 阅读 · 0 评论 -
基于单层决策树构建弱分类器 boosting分类
#coding=utf-8import refrom numpy import *def load_data(file_name): open_file=open(file_name) read=open_file.readlines() data=re.split(pattern='!',string=read[0],maxsplit=0) a=[]翻译 2016-07-20 15:27:03 · 2032 阅读 · 0 评论 -
Logistic回归梯度上升分类法
#coding=utf-8from numpy import *import redef load_data(): """加载数据""" data=[];label=[] #附加两个表 open_file=open('test.txt') for line in open_file.readlines(): line_arr=re.sp翻译 2016-06-23 13:52:17 · 506 阅读 · 1 评论 -
朴素贝叶斯分类器
#coding=utf-8from numpy import *def load_data(): #创建样本数据 data=[ ['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','park','stupid'], ['m翻译 2016-06-21 14:00:14 · 584 阅读 · 0 评论 -
决策树
#coding=utf-8from math import logdef create_data(): #'''创建样本''' data=[[1,1,'Y'], [1,1,'Y'], [1,0,'N'], [0,1,'N'], [0,1,'N'], ] labels=['翻译 2016-06-18 14:39:56 · 376 阅读 · 0 评论 -
机器学习 画出超平面w.T*x+b
感觉 | f(x)=w.T*x+b | 其实求的是样本点到超平面的距离 (f(x)分正负)。。w+=multiply(alphas[i]*label_matrix.T[i],data_matrix[i,:].T)d=x*mat(w)+b所以理想下两个样本点f(x)值相等,就很容易确定一条分隔直线。。不同同一直线上的三点确定一个面,超平面为二维的情况还没去测试。。只提供个思路,如原创 2016-07-04 10:55:21 · 3459 阅读 · 0 评论 -
以香农熵为基础选择最佳特征
#coding=utf-8from math import logdef create_data(): #'''创建样本''' data=[[1,1,'Y'], [1,1,'Y'], [1,0,'N'], [0,1,'N'], [0,1,'N'], ] labels=['翻译 2016-06-17 11:07:31 · 695 阅读 · 0 评论 -
简单的划分数据
#coding=utf-8def create_data(): #'''创建样本''' data=[[1,1,'Y'], [1,1,'Y'], [1,0,'N'], [0,1,'N'], [0,1,'N'], ] labels=['no surfacing','flippe翻译 2016-06-16 17:08:51 · 393 阅读 · 0 评论 -
计算香农熵
from math import logdef create_data(): #'''创建样本''' data=[[1,1,'Y'], [1,1,'Y'], [1,0,'N'], [0,1,'N'], [0,1,'N'], ] labels=['no surfacing',翻译 2016-06-16 11:35:13 · 3283 阅读 · 0 评论 -
k-means k均值聚类 及二分k均值聚类
from numpy import *def load_data(file_name): data=[] fr=open(file_name) for line in fr.readlines(): cur_line=line.strip().split('\t') flt_line=map(float,cur_line)翻译 2016-08-11 09:45:27 · 2645 阅读 · 0 评论