ML基础
文章平均质量分 52
惟染
这个作者很懒,什么都没留下…
展开
-
ML基础-机器学习基础
学习应用步骤 收集数据 我们可以使用很多方法收集样本数据,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)。提取数据的方法非常多,为了 节省时间与精力,可以使用公开可用的数据源。 准备输入数据 得到数据之后,还必须确保数据格式符合要求,此外还需要为机器学习算法准备特定的数据格式,如某些算法要求特征值使用特定的格式,一些算法要求目标原创 2018-01-25 18:57:46 · 397 阅读 · 0 评论 -
ML基础-朴素贝叶斯-1-条件概率
贝叶斯准则 概述 贝叶斯定理是关于随机事件A和B的条件概率的一则定理。 其中P(A|B)是指在事件B发生的情况下事件A发生的概率 在贝叶斯定理中,每个名词都有约定俗成的名称: P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 P(A)是A的先验概率(或边缘概率)。之所以称为”先验”是因为它不考虑任何B方面的因素。 P(B|A)是已知A发生后B的条...原创 2018-05-16 17:27:32 · 734 阅读 · 0 评论 -
ML基础-朴素贝叶斯-2-进行文本分类
准备数据: # # 创建实实验样本, # 返回值1:词条切割后的文档集合 # 返回值2:一个类别标签的集合 # def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take',...原创 2018-05-21 18:11:14 · 213 阅读 · 0 评论 -
炼数成金机器学习-1-线性回归与Logistic-一元线性回归
3##关系 函数关系:确定性关系 相关关系:非确定性关系 相关系数: 这个相关系数在-1至1之间,如果是正相关,x与y同增同减少,反之相反。 相关系数越接近1,几何分布越接近直线。 如何确定参数: 使用平方差和衡量预测值与真实值的差距 平法误差真实值y,预测值y=ax+b,平法差就是y-(ax+b)的平方 虚招合适的参数,使得平方误差和RSS最小。 参考文章:http...原创 2018-05-14 18:13:32 · 314 阅读 · 0 评论 -
ML基础-决策树-5-测试和存储分类器
1原创 2018-05-11 18:01:11 · 143 阅读 · 0 评论 -
ML基础-决策树-4-构造注解树
绘制树节点 import matplotlib.pyplot as plt # ❶ (以下三行)定义文本框和箭头格式 decisionNode = dict(boxstyle="sawtooth", fc="0.8") leafNode = dict(boxstyle="round4", fc="0.8") arrow_args = dict(arrowstyle=") # ❷ (以下两行原创 2018-05-09 17:36:41 · 315 阅读 · 0 评论 -
ML基础-决策树-3-递归构建决策树
递归构建决策树划分数据集时的数据路径# # 改函数使用分类名称的列表,然后创建键值为classList中唯一的字典数据, # 字典对象存储了classList中每个类标签出现的频率,租后利用operator操作键值排序字典,并返回出现次数最多的分类名称 # # classList的解释:这是分类名称的列表 # def majorityCnt(classList): #创建分类的统计原创 2018-04-23 15:49:42 · 914 阅读 · 1 评论 -
ML基础-决策树-2-获取最好的划分数据集合特征
数据源 不浮出水面可以生存 是否有脚蹼 是否属于鱼类 是 是 是 是 是 是 是 否 否 否 是 否 否 是 否 def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], ...原创 2018-04-10 21:23:27 · 209 阅读 · 0 评论 -
ML基础-决策树-1-理论基础知识
简介长方形代表判断模块 判断模块 (decision block), 椭圆形代表终止模块 终止模块 (terminating block),表示已经得出结论,可以终止运行。 从判断模块引出的左右箭头称作分支 分支 (branch),它可以到达另一个判断模块或者终止模块。 如图构造了一个假想的邮件分类系统,它首先检测发送邮件域名地址。如果地址为myEmployer.com,则将其放在分类“无聊原创 2018-02-23 14:34:15 · 292 阅读 · 0 评论 -
ML基础-k近邻算法-2
【事例:关于约会网站配对的效果】Python程序解析 准备数据 def file2matrix(filename): love_dictionary = {'largeDoses': 3, 'smallDoses': 2, 'didntLike': 1} fr = open(filename) # 打开文件 arrayOLines = fr.readlines原创 2018-02-07 12:24:30 · 263 阅读 · 0 评论 -
ML基础-k近邻算法-3
手写识别系统步骤 收集数据:提供文本文件。 准备数据:编写函数classify0() ,将图像格式转换为分类器使用的list格式。 分析数据:在Python命令提示符中检查数据,确保它符合要求。 训练算法:此步骤不适用于k近邻算法。 测试算法:编写函数使用提供的部分数据集作为测试样本,测试样本与非测试样本的区别在于测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。原创 2018-02-09 15:46:28 · 194 阅读 · 0 评论 -
ML基础-k近邻算法-1
概述 k近邻算法采用测量不同特征值之间的距离方法进行分类。 特点 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 原理: Python程序解析 准备工作 def createDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0原创 2018-01-26 18:01:54 · 163 阅读 · 0 评论 -
ML基础-朴素贝叶斯-3-使用朴素贝叶斯进行交叉验证
交叉验证 # # 接受一个大字符串并将其解析为字符串列表。 # 该函数去掉少于两个字符的字符串,并将所有字符串转换为小写。 # def textParse(bigString): # input is big string, #output is word list import re listOfTokens = re.split(r'\W*', bigString...原创 2018-05-24 10:20:55 · 1723 阅读 · 0 评论