自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

chencas的博客

原创 SpectralNet: Spectral Clustering Using Deep Neural Networks

SpectralNet背景在无监督学习中，谱聚类是一种能够学习非凸流形的方法，然而它有两个局限性：一是可扩展性差，不能适用于数据量较大时场景；二是out-of-sample,即当遇到非训练样本时无法处理。为了解决上述两个问题，该文提出了一种深度学习的方法SpectralNet. 其要点该文提出一种受限随机优化的方法（constrained stochastic optimization），随机优化使其能够扩展到大的数据集；限制(constraints)是通过一个输出层实现，将输出保持正交(orth

2020-08-17 21:33:37 1783 3

原创从xgboost, lightgbm 到catboost

首先大致lightgbm和xgboost以及catboostxgboostpre-sorted& Histogram-based algorithmpre-sorted algorithm对于每个节点，遍历所有的特征对于每一个特征，以特征值大小进行排序使用一个线性扫描方式，基于信息增益，选取最佳分隔点在所有的特征中，决定最佳分隔特征及分隔点。Histogra...

2020-04-02 16:24:38 933

原创 catboost原理

文章目录概述原理类别型特征类别型特征的相关工作目标变量统计（Target Statistics）CatBoost处理Categorical features总结梯度偏差/预测偏移为什么会有梯度偏差？梯度偏差造成了什么问题？如何解决梯度偏差/预测偏移？其他特征组合快速评分基于GPU实现快速训练算法流程总结优点缺点概述CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库，是B...

2020-02-20 21:32:24 9549 1

原创基础 --- 优化方法（一）

梯度下降批量梯度下降随机梯度下降牛顿法拟牛顿法trust-regionL1正则化的求解次梯度，次导数

2020-01-18 20:57:34 341

原创序列挖掘 --- >BOSS

Bossbag-of-SFA-symbols它首先从时间序列中提取子结构（substructures）对子结构应用低通滤波和量子化，这能够降低噪声，并使用字符串匹配算法然后比较两个时间序列noise-reduced patterns的差别优点：快应用了降噪（noise reduction）invariance to offsets is treated as a parameter...

2020-01-18 20:55:04 1458

原创图数据库 --- > hugegraph （三）

作为服务器时stutio的设置studio.server.port=8088studio.server.host=0.0.0.0 // 设置为0.0.0.0在外部可以正常访问graph.server.host=127.0.0.1graph.server.port=8080graph.name=hugegraph //hugegraph不变，不需要与启动服务器建立的图名称（存储文件夹名...

2020-01-18 20:09:58 734 1

原创图数据库 --- > spark 和janusgraph组合（四）

例子sbt构建文件organization := "pluradj"name := "janusgraph-scala-example"version := "1.0"scalaVersion := "2.11.8"licenses += "Apache-2.0" -> url("http://www.apache.org/licenses/LICENSE-2.0.html")...

2020-01-18 20:08:48 3139 2

原创图数据库 --- > Tinkerpop (一)

简介TinkerPop是一个面向实时事务处理（OLAP）以及批量、分析型（OLTP）的开源的图计算框架。TinkerPop是一个可以应用于不同图形数据库的抽象层，避免应用程序与特定数据库高度依赖。目标提供通用的API和工具，使开发人员可以基于不同图数据库轻松创建图形应用程序，使图形数据库与图计算解耦，方便切换不同图形数据库，简化其工作。体系结构Gremlin是TinkerPop图形遍...

2020-01-18 20:07:21 5189

原创图数据库 --- >Janusgraph 基础（二）

不同图的管理在处理中，会创建并使用不同的图，就想sql中的table一样，Janusgraph这里使用的是不同的配置来管理不同的图。有两个组件：ConfiguredGraphFactory和JanusGraphFactory。他们的区别在于：ConfiguredGraphFactory：只有在服务启动时你已经使用ConfigurationManagementGraph API来配置你的s...

2020-01-13 12:10:30 1263

原创图数据库 --- > JanusGraph可视化之Gephi （五）

概述在本系列的第一篇文章中已经介绍了JanusGraph支持五种可视化工具，分别如下：CytoscapeGephiGraphexpKeyLinesLinkurious今天，我们来看下JanusGraph中的图数据如何使用Gephi可视化工具来呈现。Gephi安装准备进入https://gephi.org/，当前最新版本为gephi-0.9.2-windows，大约73M。安装...

2020-01-13 12:10:06 2589

原创基础算法 --- > SVD

奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。奇异值分解（SVD）通俗一点讲就是将一个线性变换分解为两个线性变换，一个线性变换代表旋转，一个线性变换代表拉伸注：SVD是将一个矩阵分解成两个正交矩阵和一个对角矩阵，我们...

2020-01-08 20:16:10 756

原创 graph --- > Graph embedding （二）

文章目录NEU背景方法NEU背景本文聚焦在deepwalk这类方法中使用的负采样方法，其认为传统的负采样并不能采样出真正有价值的节点，因此提出一种更好的采样负例的方法，不仅采样出更有价值的节点，并且可以基于训练的不同过程分别采样出当前最合适的节点。DeepWalk这一类的方法采用的负采样方式是与节点度的大小有关的，它们的出发点是度越大的节点带有的信息越多，所以采样越多这样的节点就会有更好的...

2020-01-01 16:09:26 317

原创 graph --- > Graph embedding （一）

背景目前很多机器学习算法都是针对于结构化数据，即每个样本的特征数都固定，这样可将数据按照预定的模式去学习，但也有不少学习场景中，还存在大量的关联性数据，如用户的购买赠送行为，用户的社交关系等等，这些数据很难直接应用目前的算法。Graph representations 学习是一种通过图来学习节点表示向量的方法，通过将其转化为结构化的数据，进而应用我们已有的大量学习算法进行学习。首先将深度学习应...

2019-12-29 12:04:05 541

原创论文阅读 --- 小样本学习 --- A CLOSER LOOK AT FEW-SHOT CLASSIFICATION

背景目前深度学习需要大量的有标签数据，而人类则不需要，能够通过少量的有标签数据样本进行学习分类。在N-shot learning中[1]，在训练是有K个类，每个类有N个由标签数据，即一共有N*K个样本来训练，作为 support set S，然后需要对query set Q进行分类，判断属于K类中的哪一类。N-shot learning有三个子领域，分别是 zero-shot learni...

2019-12-22 13:12:42 2754

原创基础算法 --- >EM 模型

背景假设我们需要调查我们学校学生的身高分布。我们先假设学校所有学生的身高服从正态分布N(μ,δ12)N(\mu, \delta_1^2)N(μ,δ12)，但是男女但身高分布是不同的，我们假设他们真实的分布分别为男:N(μ1,δ1)N(\mu_1, \delta_1)N(μ1,δ1)和女:N(μ2,δ22)N(\mu_2, \delta_2^2)N(μ2,δ22),现在我们怎么估计求得各...

2019-12-22 13:11:11 778

原创基础算法 --- > 正则化

文章目录L1, L2正则化贝叶斯先验分布结构风险最小化dropoutearlystoppingbatch normalization数据增强权值共享增加噪声对抗学习模型组合L1, L2正则化贝叶斯先验分布最大似然估计如果有数据集（X, Y），并且Y是有白噪音（就是测量的Y与真实的YrealY_{real}Yreal有均值为0的高斯分布误差），目的是新产生的X来得到Y，线性模型表示有：f...

2019-12-22 12:34:12 374

原创基础算法 --- > 优化方法（二）

背景这次主要介绍次梯度(subgradient)和近端梯度下降（Proximal gradient descent）算法我们以L1正则化求解为例次梯度对于任一个损失函数，将其简化写为：L(w,λ)=f(w)+λ∣w∣L(w, \lambda) = f(w) + \lambda|w|L(w,λ)=f(w)+λ∣w∣对于第一项求导gw(w,λ)=∂f(w)∂wg_w(w, \lambda)...

2019-12-21 20:13:39 566

原创 NLP --- >对抗学习：从FGM, PGD到FreeLB

背景我们知道，对抗学习能够得到更加鲁棒的神经网络结构。通过对训练样本添加一个较小的扰动，然后将其用于模型训练，能够有效地防范这类的攻击，该方法开始被提出用于自动驾驶等，后面被用于自然语言处理中，同样大幅提高模型的结果。本篇文章提出一种新的对抗训练算法，FreeLB(Free Large-Batch)，通过对词向量添加一个对抗扰动，并且最小化添加扰动样本的损失。该方法利用了最近提出的 “free...

2019-12-18 17:51:22 8624 1

原创 GAN --- > 基础

背景GAN全名（Generative Adversarial Nets），即生成对抗网络。它是在什么背景下出现，为了解决什么呢？我们知道在深度学习领域中，判别模型可以利用反向传播算法等来进行求解，也即从建模，到最终的分类预测均能够顺利地实施并取到不错的效果；但在深度学习中，生成模型常用的极大似然估计等，通常对其难以进行有效的概率计算，并且也难以利用在生成的中间内容以进行有效地学习。基于上述在...

2019-12-14 15:47:26 398

原创 NLP --- >word2vec

概述Word2vec在NLP里占有非常重要的地位，是很多深度学习技术的基础，那它解决了什么问题？是什么？为什么能解决呢？下面详细地介绍各个部分。Word2vec解决什么问题？我们知道，在一般的机器学习中，数据分为两大类，一类是数值型，另一类是字符型数据：对于数值型数据，能够有效地处理，可以直接用于数据拟合，回归分析中；对于字符型数据，如常见的性别（男，女），省份等，我们会把他们one-hot...

2019-12-08 19:59:06 201

转载 NLP --- > The Illustrated Transformer (翻译)

transformRef: https://jalammar.github.io/illustrated-transformer/自注意模型细节：输入词向量矩阵，n*e,其中n为词的个数，e为向量长度设定三个参数矩阵分别为WQ,WK,WVW^Q,W^K, W^VWQ,WK,WV，为了减少参数，该三个矩阵共享参数将三个矩阵分布为词向量矩阵相乘，得到Query, Key, Value m...

2019-12-07 18:14:44 262

原创由adboost, gbdt到xgboost，从目标函数说起

Adboost原理Adboost是利用前一轮弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去，简单的说是Boosting框架+任意基学习器算法+指数损失函数。它是加法模型，学习的是前向分布学习算法，损失函数为指数函数的分类问题；另外，其基分类器可以为任何学习器，使用最广泛的是决策树和神经网络；对于决策树，使用CART分类回归树目标函数损失函数为指数函数，即定义损失函数为：L=ar...

2019-10-27 13:04:12 1115

原创基础算法 --- > 排序

冒泡冒泡排序（Bubble Sort）是一种交换排序，基本思想是：两两比较相邻记录的关键字，如果反序则交换，直到没有反序的记录为止。在最好的情况下，也就是数列本身是排好序的，需要进行 n - 1 次比较；在最坏的情况下，也就是数列本身是逆序的，需要进行 n(n-1)/2 次比较。因此冒泡排序总的时间复杂度是 O(n^2)。# 冒泡排序def bubbleSort(a...

2019-07-20 13:19:04 184

转载如何理解 Graph Convolutional Network（GCN）

https://www.zhihu.com/question/54504471/answer/332657604

2019-07-13 16:58:41 895

原创 NLP --- > LDA

LDA共轭先验分布在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布Beta分布是二项式分布的共轭先验分布，而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。共轭的意思是，以Beta分布和二项式分布为例，数据符合二项分布的时候，参数的先验分布和后验分布都能保持Beta分布...

2019-07-07 19:29:20 468

原创 spark-submit 程序中scala和python的构造

scalalinux 环境spark 2.4.2scala 2.12.8 （spark-scala版本通过运行spark-shell查看）简洁运行构造项目目录结构$ find .../simple.sbt./src./src/main./src/main/scala./src/main/scala/SimpleApp.scala其中SimapleApp.scala的内...

2019-07-07 19:27:49 179

原创 docker 配置jupyter notebook与vscde调试

环境环境 win7通过toolbox安装docker需要在virtualBox中设置端口转发网络选择NAT地址转换=jupyter中需要执行jupyter notebook --ip=0.0.0.0 --no-browser然后再win7浏览器中中输入127.0.0.1:8888即可vscode 调试需要在本机和docker环境内都安装还有需要本地代码与docker代...

2019-07-07 19:27:32 299

原创 NLP --- > LDA-EM-SVM

algorithm-LDA-EM-SVM文章目录algorithm-LDA-EM-SVMEM混合高斯模型SVM原理推导定理引入对偶算法的优点:求解 SMO算法LDALDA与PLAS区别求解BFGS 算法标签（空格分隔）： EM LDA SVM在此输入正文EMincomplete data distributionP(Y∣θ)P(Y|\theta)P(Y∣θ)complete da...

2019-07-07 15:11:49 340

原创 PU --- > 无偏PU learning简介

PU learning背景PU learning(positive-unlabeled learning)，即我们只有正样本和未标注的样本，以此进行分类学习。其可在以下几个领域内应用：检索从大量无标注的样本中选取特定的样本，比如人脸标注异常检测包括inlier-based outlier 检测序列数据检测负样本的分布随着时间改变，这样传统的分类将不再适合，PU 只需要更新未标注...

2019-07-05 18:06:13 7699 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄11年

27
原创

49
点赞

229
收藏

59
粉丝

关注

私信

热门文章

分类专栏

最新评论

SpectralNet: Spectral Clustering Using Deep Neural Networks
230万光年的思念: 错哪儿了？
SpectralNet: Spectral Clustering Using Deep Neural Networks
promotetogod: 错的也太多了，误导别人
catboost原理
JavaExploit: 楼主你好，您所分享的文章对我的帮助非常大，非常感谢您的分享，同时在学习的时候，对于Building a tree in catboost伪代码中的一些符号所代表的意思不理解，比如：α、L、grad、leafr(i) ← GetLeaf(xi, Tc, σr) for i = 1..n;∆(i) ← avg(gradr(p) for p : leafr(p) = leafr(i)) for i = 1..n;希望楼主能得到楼主的解惑，非常感谢！
SpectralNet: Spectral Clustering Using Deep Neural Networks
IsAmant: 孪生网络损失那部分是不是打错了
图数据库 --- > hugegraph （三）
艾斯爱佛: 你好，执行initstore 文件时打开了文件，但是不是执行怎么办

提示

确定要删除当前文章？

取消删除