Machine learning
机器学习
小帆敲代码
这个作者很懒,什么都没留下…
展开
-
决策树
决策树的一个重要任务,就是为了理解数据中蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。一、确定划分数据集的决定性特征信息增益:划分数据集前后信息发生的变化信息:l(xi)=-log2p(xi),p(xi)是选择该分类的概率熵(信息的期望值,表示序集无需程度的度量):H=-Σp(xi)log2p(...原创 2020-03-13 20:19:00 · 187 阅读 · 0 评论 -
k-近邻算法(KNN)
输入没有标签的新数据后,将新数据的每个特征与样本数据集的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(最近邻)的分类标签,一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处一、加载数据二、归一化特征值三、计算欧式距离from numpy import*import operatordef createDataS...原创 2020-03-13 22:18:00 · 101 阅读 · 0 评论 -
朴素贝叶斯分类器
这是一个基于概率的分类器,朴素是指具有简单的假设:一是哪个分类的概率大,就是哪一类,二是独立性假设详情见下。贝叶斯公式:p(c|x)=p(x|c)p(c)/p(x);在学习概率论的时候,这个公式是具有逻辑的公式。比如,我们对一句评论分为两类,一类是褒义,一类是贬义。一、文本处理,将句子分词,大小写统一化二、建立词集(优化后为词袋模型),计算词向量三、分子:每个词在不同类别下出...原创 2020-03-17 17:10:00 · 111 阅读 · 0 评论