- 博客(7)
- 收藏
- 关注
原创 李航《统计学习方法》----KNN--例题解析+ 机器学习实战
(文章底部有代码和数据链接)模型介绍k近邻算法(k-nearest neighbor ,k-NN) 基本思想是:特征空间中的每个样本都可以用与它最近的K个邻居来代表。分类的过程是:k个邻居进行投票,将待预测样本归入得票最多的类别里面。模型三要素(1)k值的选择(2)距离的度量方法(3)分类决策规则常见的距离度量方式设两个n维向量x1和x2之间的距离度量方式有:1、曼哈顿距离...
2020-01-13 11:45:03 4233 2
原创 李航《统计学习方法》----决策树--例题代码+ 机器学习实战
决策树=树+决策 也就是先构造一棵树,在这棵树上进行一系列的决策 (是分类算法但也可以做回归)那他做了什么事呢?请看下图:我们的目标是分出图中谁爱篮球。 图中对应有五个样本以及右图中的两个特征(age、male)。这个分类的过程是:对五个样本从上往下走得出来最终的结果(输入样本数等于输出样本数)。因此决策树的分类过程比较简单。但是,我们要怎么构造一棵决策树呢?再举一个例子:假如现在...
2019-12-23 14:14:43 1997
原创 李航《统计学习方法》----逻辑斯谛回归+ 机器学习实战
逻辑斯谛回归常用于分类问题。常见于以下应用场景:贷款违约问题(会/不会)(银行可用于判断要不要给一个人放贷)商品推荐(会购买/不会够买)情感分析(正/负)广告点击(点/不点)还有很多其他分类问题……举例:这张表格给定X:(年龄、工资、学历)的条件,预测一个人贷款Y:会不会逾期。因此对于这样的分类问题,我们需要做以下三件事:核心是:学习输入到输出的映射 f :X —>...
2019-12-22 22:13:08 276
原创 李航《统计学习方法》----朴素贝叶斯--例题代码(4.1-4.2)+ 机器学习实战
朴素贝叶斯算法大致流程:1、准备数据,创建训练集2、创建所有特征可能的取值集合3、将特征取值转换为向量4、训练算法,从特征向量计算概率:5、测试算法,对给定的实例先把实例转换为向量。再计算:6、比较p(y=1|x=xi) 和 p(y=0|x=xi)的概大小,如果前者大,则判定当前实例属于y=1;否则y=0。课本例题代码:import numpy as npfrom funct...
2019-12-21 11:59:03 1326
原创 nlp从one-hot到word2vec的文本表示方法
1、离散表示方法(Local Representation)One-hot-encoding1、构造文本分词后的字典,每个分词用0或1表示;2、每个分词的文本表示为该分词的比特位为1,其他位为0;例如:Tangjie likes to watch movies. Mary likes tooTangjie also likes to watch basketball games.以...
2019-12-19 15:25:31 381
原创 常用分类模型的评价指标
评价分类模型的指标准确率 acc = 分类正确的样本数/总样本数例如:当样本总数是100,正确分类的样本个数是60,那么acc = 60/100=0.6 。缺点:当正负样本不均衡的时候,用准确率不能很好的评估模型的好坏。例如:正样本个数为:995个;负样本个数为:5个;即使我的模型不做任何训练,对所有的数据都判定为正,这样得到的准确率也很高,acc=99...
2019-12-15 19:07:32 5347
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人