机器学习
文章平均质量分 95
小有名气的可爱鬼
这个作者很懒,什么都没留下…
展开
-
端到端的框架DeepInf
Facebook、Twitter、微信、微博等社交和信息网络活动已经成为我们日常生活中不可或缺的一部分,在这些活动中,我们可以很容易地了解朋友的行为,进而受到他们的影响。因此,对每个用户进行有效的社会影响力预测对于各种应用(如在线推荐和广告)至关重要。传统的社会影响预测方法通常会设计各种手工制作的规则来提取特定于用户和网络的特征。然而,它们的有效性很大程度上依赖于领域专家的知识。因此,通常很难将它们归纳到不同的领域。受deep神经网络最近在广泛的计算应用中取得成功的启发,我们设计了一个端到端的框架Dee原创 2021-05-06 15:19:03 · 1290 阅读 · 0 评论 -
三个例子教你如何利用Keras搭建深度网络进行搭建 训练模型
第一个例子:回归模型首先我们在Keras中定义一个单层全连接网络,进行线性回归模型的训练# Regressor exampleimport numpy as npnp.random.seed(1337) from keras.models import Sequential from keras.layers import Denseimport matplotlib.pyplot as plt# 创建数据集X = np.linspace(-1, 1, 200)np.r...原创 2020-09-20 21:53:06 · 829 阅读 · 0 评论 -
Keras和TensorFlow间的亲子关系
Keras是基于TensorFlow和Theano(由加拿大蒙特利尔大学开发的机器学习框架)的深度学习库,keras是基于tensorflow的高级API,通常直接调用一些封装好的函数就可以实现某些功能,而tensorflow虽然比较底层,但是可以比较灵活的定义模型结构目前Keras已经被TensorFlow收录,添加到TensorFlow 中,成为其默认的框架,成为TensorFlow官方的高级API...原创 2020-09-20 21:34:22 · 137 阅读 · 0 评论 -
Cognitive Graph for Multi-Hop Reading Comprehension at Scale解说
我们提出了一个新的CogQA框架,用于网络规模的多跳问题回答文件。该框架以认知科学中的双过程理论为基础,通过协调隐式提取模块(系统1)和显式推理模块(系统2),在迭代过程中逐步构建认知图。在给出准确答案的同时,我们的框架还提供了可解释的推理路径。具体地说,我们的1基于BERT和图形神经网络(GNN)的实现可以有效地处理HotpotQA-fullwiki数据集中的数百万个多跳推理问题文档,在排行榜上取得了34.9的联合分数,而在最佳竞争对手中只有23.6分1 Introduction深度学习模式在机器原创 2020-07-25 23:24:40 · 675 阅读 · 0 评论 -
VC维+西瓜书讲解
现实学习任务所面临的通常是无限假设空间,例如实数域中的所有区间、R^{d}空间中的所有线性超平面,欲对此种情形的可学习性进行研究,需度量假设空间的复杂度,最常见的办法是考虑假设空间的"VC维”。给定训练样本集合x_{0},x_{1}\cdots ,x_{n-1},其中每个样本有两个可选的label(+1, -1)。因此总共有2^{n}种不同的label组合。如果对于其中每一种组合,分类模型 f 都能够对其进行正确的划分,那么我们称 f 能够将训练样本集合x_{0},x_{1}\cdots ,x_{n-1}原创 2020-06-17 23:18:55 · 360 阅读 · 0 评论 -
sklearn实现决策树对乳腺癌数据集的分类并使用五折交叉验证(上)
关于Breast Cancer Wisconsin (Diagnostic) Data Set 乳腺癌数据集的基本情况可以看我之前发的博客:https://blog.csdn.net/weixin_42305378/article/details/106058697这边主要是使用sklearn的决策树算法对乳腺癌数据集进行分类,并用五折交叉验证评估以前我们是直接将数据分割成70%的训练数据和测试数据,现在我们利用5折交叉验证分割数据,首先将数据分为5组,然后再从5组数据之中选择不同数据进行训练。原创 2020-06-13 22:04:03 · 7506 阅读 · 0 评论 -
sklearn实现决策树对乳腺癌的分类诊断(下)
决策树:https://blog.csdn.net/bjjoy2009/article/details/80841657https://blog.csdn.net/gulie8/article/details/101301518原创 2020-06-13 22:05:26 · 4936 阅读 · 0 评论 -
小白带你入门——sklearn实现决策树分类的步骤
这篇主要简单的介绍 sklearn中实现决策树要用到的一些参数知识,以及操作的大概框架,方便后面使用sklearn实现决策树分类。有需要的还可以看下我的这篇博客https://blog.csdn.net/weixin_42305378/article/details/106118209,里面是不使用sklearn构造决策树的代码 以及 有关于信息熵等的知识。sklearn的基本建模流程: 1. 导入需要的算法库和模块,以sklearn中的红酒数据集为例 2.加载数据集原创 2020-06-13 22:00:25 · 3308 阅读 · 0 评论 -
进来了解下sklearn吧
Scikit-learn简称为sklearn,是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,调用起来十分方便,极大的节省我们编写代码的时间以及减少我们的代码量。1.sklearn库的结构sklearn结构图sklearn库的算法主要有四类:分类,回归,聚类,降维。其中:常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees 常用的分类:线性、决策树、SVM、KNN,朴.原创 2020-06-13 21:52:59 · 204 阅读 · 0 评论 -
用 DataFrame将 X 和 y 合并及Seaborn Pairplot 展示数据集的内容
在 Sklean 里,模型能即用的数据有两种形式: Numpy 二维数组 (ndarray) 的稠密数据 (dense data),通常都是这种格式。 SciPy 矩阵 (scipy.sparse.matrix) 的稀疏数据 (sparse data),比如文本分析每个单词 (字典有 100000 个词) 做独热编码得到矩阵有很多 0,这时用ndarray 就不合适了,太耗内存。 上述数据在机器学习中通常用符号 X 表示,是模型自变量。它的大小 = [样本数, 特征数],图下图所示。该.原创 2020-06-02 16:44:36 · 812 阅读 · 0 评论 -
一文带你读懂聚类
作为无监督学习的一个重要方法,聚类是将样本集D划分为若干互不相交的子集,即样本簇。聚类的思想就是把属性相似的样本归到一类。对于每一个数据点,我们可以把它归到一个特定的类,同时每个类之间的所有数据点在某种程度上有着共性,比如空间位置接近等特性。一句话概括聚类结果:簇内相似度高且簇间相似度低。聚类与分类的区别分类是监督学习任务,利用已知的样本标记训练学习器预测未知样本的类别。这就像一个幼儿园的小朋友,老师先拿各种水果教他们,告诉每种水果是什么样子的,接下来这些孩子就会认这些类型的水果了。它有训练和预测两原创 2020-05-22 23:35:40 · 2381 阅读 · 0 评论 -
同名消歧
在许多应用中,同名消歧 (Name Disambiguation - aiming at disambiguating WhoIsWho) 一直被视为一个具有挑战性的问题,如科学文献管理、人物搜索、社交网络分析等,同时,随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情景十分复杂,导致该问题仍未能很好解决。问题描述收录各种论文的线上学术搜索系统(例Google Scholar, Dblp和AMiner等)已经成为目前全球原创 2020-05-20 23:51:31 · 1758 阅读 · 1 评论 -
机器学习实战——决策树构建过程,信息熵及相关代码
决策树基本概念决策树就是一棵树,可解释性强,可用if-then规则解释,易让人理解。决策树的生成是一个递归的过程,一颗决策树包含一个根节点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列。下图是以买电脑为例构造的决策树。构建决策树选择最优特征再讲选择最优特征前先补充我们需要用到的信息熵和信息增益,这二个也是进行最优特征选取的关键所原创 2020-05-15 23:41:16 · 1605 阅读 · 0 评论 -
sklearn.preprocessing.LabelEncoder
sklearn.preprocessing包提供几种常用的效用函数及转换器类,用于更改原始特征向量表示形式以适应后续评估量sklearn.preprocessing.LabelEncoder():标签数值化,比如把类别“男”,“女”编号为0和1。将n个类别编码为0~n-1之间的整数(包含0和n-1)举例:# 数据处理——标签数值化#标签diagnosis的数据类型字符串,bengin良性,malignant恶性#使用LabelEncoder对其进行数值化,将标签值编码为0和1,使得其可以作原创 2020-05-14 15:40:26 · 716 阅读 · 0 评论 -
Breast Cancer Wisconsin (Diagnostic) Data Set
数据集概况数据集的地址为:https://archive.ics.uci.edu/ml/datasets/Breast+cancer+Wisconsin+(Diagnostic)该页面中,可以进入Data Set Description 来查看数据的说明文档,另外一个连接是Data Folder 查看数据集的下载地址。这里我们使用的文件是:breast-cancer-wisconsin.data breast-cancer-wisconsin.names即:这两个文件,第一个文.原创 2020-05-14 15:09:04 · 9193 阅读 · 0 评论 -
机器学习相关算法
1. 学习类型监督学习:训练数据有标记无监督学习:训练数据无标记半监督学习:训练数据包含少量的标记样本,及大量的无标记样本除上述以外还有增强学习、active learning、Transfer learning、Representation learning等2. 监督学习具体学习过程如下:常见的分类模型算法有:感知机、决策树、贝叶斯分类、Logistic Regression 、Multinomial Logistic Regression、k-Nearest Neighbor 、原创 2020-05-12 16:23:03 · 563 阅读 · 0 评论 -
感知机与XOR问题
感知机感知机其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,由输入空间到输出空间的映射关系的表达式为f(x)=sign(wx+b),wx+b为一个超平面,sign为符号函数,可以看出,感知机是一个discriminative classification model.感知机不能解决XOR问题的原因由曲线分割 而成的空间称为 非线性空间;由直线分割 而成的空间称为 线性空间。简单的感知机是一个线性分类模型只能表示由一条直线分割的空间,无法表示用曲线分割的空间如下图,而XOR问题是一个非原创 2020-05-08 22:42:59 · 1617 阅读 · 0 评论