sklearn
韩明宇
这个作者很懒,什么都没留下…
展开
-
《统计学习方法》——感知机
感知机模型 定义2.1(感知机):假设输入空间是,输出空间是。输入表示实例的特征向量,对应于输入空间的点;输出表示实例的类别。由输入空间到输出空间的如下函数,称为感知机。其中,w和b为感知机模型参数,叫做权值或权值向量,叫做偏置,表示w和x的内积。sign是符号函数,即感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器,即函数集...原创 2019-04-26 11:16:54 · 924 阅读 · 0 评论 -
达观杯文本分类——基于N-gram和LogisticRegression
任务与数据 建立模型通过长文本数据正文(article),预测文本对应的类别(class)。数据包含2个csv文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词...原创 2019-06-20 10:32:49 · 1696 阅读 · 0 评论 -
《统计学习方法》——逻辑斯蒂回归
逻辑斯蒂回归模型 定义6.1(逻辑斯蒂分布):设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:式中,为位置参数,为形状参数。 二项逻辑斯蒂回归模型 定义6.2(逻辑斯蒂回归模型):二项逻辑斯蒂回归模型是如下的条件概率分布:有时为了方便,将权值向量和输入向量加以扩充,仍记作w,x,即,。这时,逻辑斯蒂回归模型如下:考察逻辑...原创 2019-05-17 21:22:02 · 802 阅读 · 0 评论 -
《统计学习方法》——决策树
决策树模型与学习 定义5.1(决策树):分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分...原创 2019-05-17 14:00:01 · 410 阅读 · 0 评论 -
Python机器学习库——Sklearn
目录简介常规使用模式sklearn中的数据展示sklearn model中常用属性与功能数据标准化交叉验证过拟合问题保存模型小结 简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfi...转载 2019-05-11 17:40:59 · 7076 阅读 · 0 评论 -
利用词袋模型和TF-IDF实现Large Movie Review Dataset文本分类
目录文本分类简介数据集介绍数据预处理提取特征训练分类器模型评估 文本分类简介 文本分类是指在给定分类体系,根据文本内容自动确定文本类别的过程。最基础的分类是归到两个类别中,称为二分类问题,例如电影评论分类,只需要分为“好评”或“差评”。分到多个类别中的称为多分类问题,例如,把名字分类为法语名字、英语名字、西班牙语名字等。一般来说文本分类大致分为如下几个步骤:...原创 2019-05-10 17:04:07 · 3153 阅读 · 0 评论 -
《统计学习方法》——朴素贝叶斯法
朴素贝叶斯法的学习与分类 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的y。基本方法设输入空间为n维向量的集合,输入空间为类标记集合。输入为特征向量,输出为类标记。X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。...原创 2019-04-30 09:52:55 · 890 阅读 · 0 评论 -
《统计学习方法》——k近邻法
k近邻算法 k近邻算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 k近邻模型 k近邻法使用的模型实际上对应于对特征空间的划分。模型由三个基本要素——距离度量、k值的选择和分类决策规则决定。距离度量特征空间中两个实例点的距离是两个实例点相似程度的反映。k近邻模型的...原创 2019-04-26 22:15:01 · 1024 阅读 · 0 评论 -
深度之眼-科赛网二分类大赛入门之路
比赛简介 比赛网址:https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content比赛题目:「二分类算法」提供银行精准营销解决方案赛题描述:数据:训练集:测试集(没有标签y):字段说明:NO 字段名称 数据类型 字段描述 1 ID Int...原创 2019-06-29 17:57:15 · 1214 阅读 · 0 评论