分类与回归
分类与回归
yichudu
code anything
展开
-
回归-简述
回归是指预测的输出值为连续的实值.1. 常用模型线性回归 相关博文: 回归-线性回归逻辑斯谛回归 相关博文: 回归-逻辑斯谛回归回归决策树 相关博文: GBDT, 梯度提升决策树2. 数据集回归问题的数据集通常是这样的, D={(x1,y1),(x2,y2),...,(xn,yn)},yi∈RD=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2)原创 2017-07-17 10:34:20 · 610 阅读 · 0 评论 -
线性回归与最小二乘
1.简介回归是指预测的输出值为连续的实值; 线性是说预测函数是属性的线性组合. f(x)=wTx+b(1)f(\boldsymbol x)=\boldsymbol w^T\boldsymbol x+b \tag 1 线性模型(linear model)简单, 易于建模, 但却蕴含着机器学习的重要思想.由于w\mathbf w直观地表达了各属性在预测中的重要性, 所以线性模型有着很好的可解释性(原创 2017-05-29 15:08:32 · 787 阅读 · 0 评论 -
回归 - 决策树
CART, Classification And Regression Tree, 分类与回归树. 该模型由Breiman等人在1984年提出. 该模型中决策树是二叉树, 每个内部节点对应一个二元判断, 判断为 ‘真’, 走左子树, 否则走右子树.原创 2017-07-23 18:03:56 · 1371 阅读 · 0 评论 -
分类任务简述及超大规模任务设计
鸢尾花分类多类别Multiclass classification: classification task with more than two classes. Each sample can only be labelled as one class.多标签Multilabel classification: classification task labelling each sa...原创 2020-04-28 16:41:28 · 658 阅读 · 0 评论 -
标注任务及评测指标
标注任务也很常见, 比如 提取文本中的若干个关键字(key-word extraction)当标签. 标注任务可以是有监督学习, 也可以是无监督学习.1.评价标注任务的评价指标和分类任务的评价指标一样,常用的有准确率,精确率,召回率。1.1单个任务评价指标记target=S1, predict=S2,precision precision=|S1∩S2||S2|precision=\frac原创 2017-10-19 11:22:03 · 1667 阅读 · 0 评论 -
分类任务的评测指标,AUC,ROC
1. 简述分类是常见的有监督机器学习. 定义: 给定一个对象x, 划分到预定义好的一个类别y中. 当y有两种取值时, 就是二分类. 应用有 新闻分类, 商品分类, 垃圾邮件过滤等. 常用的模型有:朴素贝叶斯 博客链接: [分类-朴素贝叶斯]k-近邻SVM 博客链接: [分类-朴素贝叶斯]2. 评测指标以二分类举例, cijc_{ij}表示把i类数据分到了j类别. 那么就有下列表原创 2017-07-15 14:12:24 · 1568 阅读 · 0 评论 -
分类-逻辑回归
逻辑斯谛回归, Logistic Regression. 名字中有Logistic, 但跟逻辑没什么关系, 名字中有Regression, 但更是一个分类算法. 所以没有像很多书中那样叫做逻辑回归, 而叫逻辑斯谛回归. coursera中machine learning课程有一节讲到逻辑斯谛回归, 课程地址原创 2017-06-24 11:59:57 · 594 阅读 · 0 评论 -
分类-决策树
1.概述决策树是一棵通过一系列的判断得到最终决策的. 图1 西瓜数据集 图2 由西瓜数据集得到的决策树2.相关概念2.1 信息熵信息熵,Information Entropy, 是度量样本集合纯度最常用的一种指标. 假定样本集合D中包含了n类样本, 第k类样本的出现频率为pkp_k, 则D的信息熵定义为 Ent(D)=−∑k=1npklog2pk(1)Ent(D)=-\sum_{原创 2017-05-12 10:44:38 · 624 阅读 · 0 评论 -
分类-朴素贝叶斯
思路原始的贝叶斯公式为: P(B|A)=P(AB)P(A)=P(A|B)⋅P(B)P(A)(1)P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)\cdot P(B)}{P(A)} \tag 1 在分类问题中, y为类别, X为样本特征, 则已知待预测的样本特征XX, 预测它为类别yiy_i的概率为: P(yi|X)=P(X|yi)P(yi)P(X)=P(yi)∏jP原创 2017-07-15 15:07:28 · 427 阅读 · 0 评论 -
分类-SVM 支持向量机
svm,support vector machine,可用于模式分类和非线性回归。 支持向量机的主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化,支持向量机的理论基础是统计学习理论,更精确的说,支持向量机是结构风险最小化的近似实现。这个原理基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于VC维数(Vapnik-Chervonenki原创 2015-03-07 17:01:05 · 1933 阅读 · 0 评论 -
分类-kaggle-titanic
1. Titanic: Machine Learning from Disaster题目地址2.思路观察特征空值填充添加衍生特征LR算法3.代码我的 jupyter notebook 成绩:0.78469"""by yichu"""import matplotlibimport matplotlib.pyplot as pltimport numpy as npimport原创 2017-06-02 10:11:05 · 606 阅读 · 0 评论