基于开源工具的数据挖掘
ywjun的学习笔记
这个作者很懒,什么都没留下…
展开
-
贝叶斯分类器(续近邻分类器)
#A Naive Bayesian Classifiertotal ={} #类训练实例,存储对应类的出现的次数histo ={} #存储对应类中的对应特征的值得频率train = open("D:\\iris.trn",'r')for line in train: f = line.rstrip().split(',') label = f.pop(原创 2013-03-25 10:32:20 · 1404 阅读 · 0 评论 -
Python K-means使用
import Pycluster as pcimport numpy as npimport sysimport matplotlib.pylab as pl# Read data filename and desired number of clusters from command linefilename, n = sys.argv[1], int( sys.argv[2] )原创 2013-03-19 09:07:40 · 7136 阅读 · 0 评论 -
递归算法生成n个元素的所有排列
#算法思想:顺序移除列表中的一个元素,生成剩余元素的所有排列,然后,将移除的元素插入这些排列的最后#n=5时,运行时间为0.1s,当n=6时,运行时间1.18s, 当n=7时,运行时间10.13import sys,timedef permutations(v): global times print str(times+1)+"次"原创 2013-03-21 16:26:50 · 6348 阅读 · 1 评论 -
Nearest-Neighbor Classifier紧邻算法分类器(一)
#数据来自UCI Machine Learning知识库的Iris数据集#紧邻算法,通过计算测试集与训练集上诉特征之间的距离,分类,《Data Analysis with open Source Tools》中没有产生上述图的程序,所以,也模拟了下上述图形,但是暂#时没有平滑效果from numpy import * import matplotlib.pylab as plt原创 2013-03-23 12:15:32 · 3333 阅读 · 0 评论 -
紧邻算法分类器之模拟图(二)
首先将数据将文本中的数据导入数据库,因为,对数据库的操作比较熟悉,对以后的数据统计也比较的方便,是通过,计算不同点出现的次数为纵坐标,以特征值为很坐标,数据仍然是(一)中的数据,值得注意的是:数据库操作后,一定需要语句conn.commit() ,否则会出现,执行后,数据库中没有存储的现象,操作数据库需要pymssql库具体程序:import pymssqlfrom numpy原创 2013-03-23 12:23:06 · 1042 阅读 · 0 评论 -
紧邻算法分类器之模拟图(实现模拟)(三)
pl.legend()函数是显示图例,值得注意的是,plot函数,是通过点在坐标中出现的位置直线,如x=(1,4,3),y=(1,5,2),则先连接(1,1)和(4,5),然后连接(3,2)这样会出现杂乱无章的图形,所以,在通过数据库选出坐标后,通过属性从小到大排序,是横坐标的顺序是从小到大的。显示结果如下:书上的图:两图仍有区别,如果要产生下图的形状,要使用函数模原创 2013-03-23 12:38:59 · 946 阅读 · 0 评论 -
马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为,协方差矩阵为的多变量向量,其马氏距离为转载 2013-03-19 10:18:41 · 3330 阅读 · 0 评论 -
processing 程序1
class Table { String[][] data; int rowCount; Table() { data = new String[10][10]; } Table(String filename) { String[] rows = loadStrings(filename); data = new String[ro原创 2013-03-28 15:14:50 · 2849 阅读 · 0 评论