![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法学习笔记
编程初丁
记录学习过程,分享点滴经验
展开
-
k-近邻算法(KNN)
工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征醉相思数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是K-近邻算法中k的出处,通常K是不大于20的整数。最后,选择k个最相似数据中...原创 2018-08-06 19:10:34 · 285 阅读 · 0 评论 -
ID3决策树
信息熵与信息增益: 熵代表信息的混乱程度。一个特征的熵越小,说明这个特征的信息越纯净,价值越大,用总的信息熵减去该特征信息熵的信息增益就越大,越应该在初始的时候作为划分数据集的特征。 实现代码: (环境为Python3.x) from numpy import * from math import log import operator #创建数据集 def createDataS...原创 2018-08-08 17:35:54 · 400 阅读 · 0 评论 -
正则化和归一化
正则化,归一化(标准化和正规化):对数据进行预处理的两种方式,目的是让数据更便于计算和获得更加泛化的结果,但并不改变问题的本质。 正则化:要求一个逻辑回归问题,假设一个函数,覆盖所有可能:y=wx,其中w为参数向量,x为已知样本的向量,用yi表示第i个样本的真实值,用f(xi)表示样本的预测值,从而确定损失函数L(yi,f(xi))=yi−sigmoid(xi)。该损失函数代表一种误差。对...转载 2018-09-25 22:12:35 · 2296 阅读 · 0 评论 -
纵表和横表的概念及其相互转换
横表就是普通的建表方式,如表结构为:主键、字段1、字段2、字段3...。 如果变成纵表后,则表结构为: 主键、字段代码、字段值。而字段代码则为字段1、字段2、字段3...。 具体为电信行业的例子。以用户帐单表为例,一般出账时用户有很多费用,其数据一般存储为:时间,客户ID,费用科目,费用。这种存储结构一般称为纵表,其特点是行数多,字段少。纵表在使用时由于行数多,统计用户数或对用户进行分档时还需要...转载 2018-09-26 08:57:45 · 1096 阅读 · 0 评论