weixin_37550997-CSDN博客

原创李航《统计学习方法》----KNN--例题解析+ 机器学习实战

（文章底部有代码和数据链接）模型介绍k近邻算法（k-nearest neighbor ,k-NN) 基本思想是：特征空间中的每个样本都可以用与它最近的K个邻居来代表。分类的过程是：k个邻居进行投票，将待预测样本归入得票最多的类别里面。模型三要素（1）k值的选择（2）距离的度量方法（3）分类决策规则常见的距离度量方式设两个n维向量x1和x2之间的距离度量方式有：1、曼哈顿距离...

2020-01-13 11:45:03 4233 2

原创李航《统计学习方法》----决策树--例题代码+ 机器学习实战

决策树=树+决策也就是先构造一棵树，在这棵树上进行一系列的决策（是分类算法但也可以做回归）那他做了什么事呢？请看下图：我们的目标是分出图中谁爱篮球。图中对应有五个样本以及右图中的两个特征（age、male)。这个分类的过程是：对五个样本从上往下走得出来最终的结果（输入样本数等于输出样本数）。因此决策树的分类过程比较简单。但是，我们要怎么构造一棵决策树呢？再举一个例子：假如现在...

2019-12-23 14:14:43 1997

原创李航《统计学习方法》----逻辑斯谛回归+ 机器学习实战

逻辑斯谛回归常用于分类问题。常见于以下应用场景：贷款违约问题（会/不会）（银行可用于判断要不要给一个人放贷）商品推荐（会购买/不会够买）情感分析（正/负）广告点击（点/不点）还有很多其他分类问题……举例：这张表格给定X：（年龄、工资、学历）的条件，预测一个人贷款Y：会不会逾期。因此对于这样的分类问题，我们需要做以下三件事：核心是：学习输入到输出的映射 f ：X —&gt...

2019-12-22 22:13:08 276

原创李航《统计学习方法》----朴素贝叶斯--例题代码(4.1-4.2）+ 机器学习实战

朴素贝叶斯算法大致流程：1、准备数据，创建训练集2、创建所有特征可能的取值集合3、将特征取值转换为向量4、训练算法，从特征向量计算概率：5、测试算法，对给定的实例先把实例转换为向量。再计算：6、比较p(y=1|x=xi) 和 p(y=0|x=xi)的概大小，如果前者大，则判定当前实例属于y=1；否则y=0。课本例题代码：import numpy as npfrom funct...

2019-12-21 11:59:03 1326

原创 nlp从one-hot到word2vec的文本表示方法

1、离散表示方法(Local Representation)One-hot-encoding1、构造文本分词后的字典，每个分词用0或1表示；2、每个分词的文本表示为该分词的比特位为1，其他位为0；例如：Tangjie likes to watch movies. Mary likes tooTangjie also likes to watch basketball games.以...

2019-12-19 15:25:31 381

原创 SVM原理推导

2019-12-16 00:44:08 83

原创常用分类模型的评价指标

评价分类模型的指标准确率 acc = 分类正确的样本数/总样本数例如：当样本总数是100，正确分类的样本个数是60，那么acc = 60/100=0.6 。缺点：当正负样本不均衡的时候，用准确率不能很好的评估模型的好坏。例如：正样本个数为：995个；负样本个数为：5个；即使我的模型不做任何训练，对所有的数据都判定为正，这样得到的准确率也很高，acc=99...

2019-12-15 19:07:32 5347

weixin_37550997的博客