![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 61
柒安
这个作者很懒,什么都没留下…
展开
-
机器学习实战笔记之二(k-近邻算法)
优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。原创 2015-11-02 09:13:53 · 495 阅读 · 0 评论 -
机器学习实战,第三章,临时代码
#coding=utf-8from math import logdef calcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={} # 为所有可能分类创建字典 for featVec in dataSet: currentLabel=featVec[-1]原创 2015-11-06 09:02:41 · 626 阅读 · 0 评论 -
机器学习实战笔记之三(决策树)
决策树和k-近邻算法:决策树,数据形式易于理解。k-近邻算法,完成很多分类任务。原创 2015-11-06 08:21:02 · 586 阅读 · 0 评论 -
机器学习实战笔记之四(朴素贝叶斯)
朴素贝叶斯,选择具有最高概率的决策。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。条件概率的计算公式:P(gray | bucketB) = P(gray and bucketB) / P(bucketB)贝叶斯准则:p(c|x) = p(x|c)p(c) / p(x)贝原创 2015-11-10 08:47:59 · 549 阅读 · 0 评论 -
机器学习实战笔记之五(Logistic 回归)
Logistic 回归的一般过程收集数据:采用任意方法收集数据。准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。使用算法:首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回原创 2015-11-17 21:15:50 · 14450 阅读 · 6 评论 -
机器学习实战笔记之一(调试NumPy)
NumPy函数库中存在两种不同的数据类型(矩阵matrix和数组array),都可以用于处理行列表示的数字元素。虽然它们看起来很相似,但是在这两个数据类型上执行相同的数学运算可能得到不同的结果,其中NumPy函数库中的matrix与MATLAB中matrices等价。# 构造一个4X4的随机数组random.rand(4,4)# 使用随机函数产生矩阵randMat=mat(ra原创 2015-11-02 08:43:32 · 545 阅读 · 0 评论