自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 【论文阅读】GETNext: Trajectory Flow Map Enhanced Transformer for Next POI Recommendation

Next POI 推荐是根据用户的当前状态和历史信息,预测用户近期的动向,为用户和服务提供商带来巨大的价值。2022 年 SIGIR 的一篇论文:GETNext: Trajectory Flow Map Enhanced Transformer for Next POI Recommendation

2022-07-23 11:32:34 1713 1

原创 Time2Vec 的理解与简单实现

Time2Vec 从其名字就可以看出其功能,将时间进行 Embedding,并且能够应用于不同的模型。

2022-07-23 11:31:37 2686 1

原创 聊一聊损失函数

损失函数,具体来说就是计算神经网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行。下面主要介绍一些常见的损失函数:均方差损失函数和交叉熵损失函数。...

2022-07-20 16:33:12 826

原创 【论文阅读】Geography-Aware Sequential Location Recommendation

顺序位置推荐在许多应用中发挥着重要作用,如移动性预测、路线规划和基于位置的广告。它不但可以提高用户体验,增加用户粘性,还能为商家带来潜在的商业利益,已成为推荐系统中最重要的研究方向之一。...

2022-07-14 10:24:10 422

原创 简单理解图神经网络 GNN

图神经网络(Graph Neural Networks,GNN)最早由The Graph Neural Network Model(Gori et al., 2005)提出。近年来,深度学习领域关于图神经网络的研究热情日益高涨,图神经网络已经成为各大深度学习顶会的研究热点。......

2022-07-02 19:07:40 671

原创 【论文阅读】DynaPosGNN: Dynamic-Positional GNN for Next POI Recommendation

随着基于位置的社交网络(Location-Based Social Network)的快速发展, 海量的签到数据被用于挖掘用户的行为模式以实现兴趣点(Point-of-Interest) 推荐。 兴趣点推荐不但可以提高用户体验,增加用户粘性,还能为商家带来潜在的商业利益,已成为推荐系统中最重要的研究方向之一。......

2022-07-01 21:21:44 340

原创 【论文阅读】ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

在 BERT 提出之后,各种大体量的预训练模型层出不穷,在他们效果不断优化的同时,带来的是巨大的参数量和漫长的训练时间。当然对于这个问题,也有大量的研究。ALBERT是谷歌在 BERT 基础上设计的一个精简模型,主要为了解决 BERT 参数过大、训练过慢的问题。...

2022-07-01 21:21:03 376

原创 【论文阅读】Attention Is All You Need

Transformer 是谷歌在 2017 年底发表的论文 Attention Is All You Need 中所提出的 seq2seq 模型,Transformer 的提出也给 NLP 领域带来了极大震动。现如今,不少模型还是以 Transformer 作为特征抽取机制 ,比如 BERT 就是从 Transformer 中衍生出来的预训练语言模型。Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。...

2022-07-01 21:20:15 605 1

原创 【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT 是 Google 于 2018 年提出的 NLP 预训练技术,全称是 **B**idirectional **E**ncoder **R**epresentations from **T**ransformers,直译可以理解为双向 Transformer 的 Enocder。

2022-06-13 19:35:02 488

原创 简单使用 Frp

frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP、UDP、HTTP、HTTPS 等多种协议。可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露到公网。

2022-06-10 20:16:32 572

原创 摩尔投票法学习笔记

博耶-摩尔多数投票算法(英语:Boyer–Moore majority vote algorithm),中文常作多数投票算法、摩尔投票算法等,是一种用来寻找一组元素中占多数元素的常数空间级时间复杂度算法。这一算法由罗伯特·S·博耶和 J·斯特罗瑟·摩尔在 1981 年发表,也是处理数据流的一种典型算法。...

2022-06-10 20:15:08 367

原创 二分查找学习笔记

二分查找也称折半查找,它是一种效率较高的查找方法,思路很简单,细节是魔鬼。本文主要探究几个最常用的二分查找场景:寻找一个数、寻找左侧、右侧边界,并给出二分模板。

2022-06-10 20:13:41 132

原创 Spark 与 DataFrame

在 Spark 中,除了 RDD 这种数据容器外,还有一种更容易操作的一个分布式数据容器 DateFrame,它更像传统关系型数据库的二维表,除了包括数据自身以外还包括数据的结构信息(Schema),这就可以利用类似 SQL 的语言来进行数据访问。...

2022-06-10 20:09:43 537

原创 字符串之字符串哈希

Hash 函数有助于解决很多问题,如果我们想有效地解决比较字符串的问题,最朴素的办法是直接比较两个字符串,这样做的时间复杂度是$O(\min(n_1,n_2))$,字符串哈希的想法在于,我们将每个字符串转换为一个整数,然后比较它们而不是字符串。......

2022-06-10 20:07:53 447

原创 从 Embedding 到 Word2Vec

`Word Embedding` 是将自然语言中的「单词」转换为「向量」或「矩阵」,使计算机更容易理解它们,你常常可以在自然语言处理的工作中见到这种方法。而 `Word2Vec` 正是 `Word Embedding` 的一种。

2022-06-10 20:05:28 427

原创 使用 Caddy 替代 Nginx

Caddy是一个 `Go` 编写的 `Web` 服务器,类似于 `Nginx`。相较于 `Nginx` 来说,`Caddy` 的配置简单了很多,而且默认启用了 `https`,更加的安全。

2022-06-08 20:49:31 2145

原创 线段树模板

线段树是算法竞赛中常用的用来维护 **区间信息** 的数据结构。线段树可以在$O(\log{N})$的时间复杂度内实现单点修改、区间修改、区间查询(区间求和,求区间最大值,求区间最小值)等操作。...

2022-06-08 20:48:51 120

原创 Redis 时间序列

REmote DIctionary Server(Redis) 是一个使用 ANSI C 编写的开源、支持网络、基于内存、分布式、可选持久性的键值对存储数据库。

2022-06-08 20:47:59 792

原创 【论文阅读】Time-Series Anomaly Detection Service at Microsoft

「异常检测」旨在发现数据中的意外事件或罕见项目。它在许多工业应用中非常流行,是数据挖掘中的一个重要研究领域。

2022-06-08 20:46:16 678

原创 【论文阅读】Modeling Extreme Events in Time Series Prediction

论文原文时间序列预测是数据挖掘中一个深入研究的课题。尽管取得了相当大的进步,但最近基于深度学习的方法忽略了极端事件的存在,这导致将它们应用于实时序列时性能较弱。

2022-06-08 20:45:47 360

原创 树状数组学习笔记

树状数组或二叉索引树(Binary Indexed Tree),又以其发明者命名为 Fenwick 树

2022-06-08 20:45:01 76

原创 Linux 文件权限

`Linux` 系统是一种典型的多用户系统,不同的用户处于不同的地位,拥有不同的权限。

2022-06-08 20:43:25 727

原创 Neo4j 之 Cypher 笔记

Cypher 是 Neo4j 提出的图查询语言,是一种声明式的图数据库查询语言,如同关系数据库中的 SQL,它拥有精简的语法和强大的表现力,能够精准且高效地对图数据进行查询和更新。

2022-06-08 20:41:11 253

原创 Self Attention 详解

注意力机制(Attention),之前也是一直有所听闻的,也能够大概理解 Attention 的本质就是加权,对于 Google 的论文《Attention is all you need》也只是一直听闻,现在乘着机会也是好好读一读。

2022-06-08 20:40:26 7159 2

原创 浅析 K-L 变换

K-L 变换浅析

2022-06-08 20:39:36 733

原创 AutoEncoder 学习笔记

AutoEncoder 学习笔记前言AutoEncoder 作为神经网络里的一类模型,采用无监督学习的方式对高维数据进行特征提取和特征表示,其目的是重构输入(最小化输入和输出之间的差异),而不是在给定输入的情况下预测目标值。AutoEncoder 简介上面这张图很好的描述了 AutoEncoder 的工作原理,首先是一个数据输入,它可以是图片或是一串序列,就像上图描述的一样,一幅图片经过一个 Encoder 网络之后,得到了 Compressed representation ,也就是我们所谓的这

2021-12-16 15:31:14 705 1

原创 时间序列数据建模流程范例

时间序列数据建模流程范例前言最开始在学习神经网络,PyTorch 的时候,懂的都还不多,虽然也知道 RNN, CNN 这些网络的原理,但真正自己实现起来又是另一回事,代码往往也都是从网上 copy 过来然后再自己魔改的,这也就导致了一系列的问题,代码格式不统一,没弄懂具体实现细节等等。当然,凭这些 copy 过来的代码让模型运行起来还是不难的,你只需要知晓一定的原理。显而易见,这些时间往往最后都是要“还”的。写这篇文章主要还是记录一下整体的思路,并对网络训练的整个过程进行标准化。当然,这只是我自己在写

2021-12-16 15:30:36 1828

原创 【论文阅读】Dynamic Error Thresholds

Dynamic Error Thresholds前言基于预测和阈值的方法来做异常检测,在常规的方法中,我们往往会使用一种最朴素的方法来确定阈值,也就是设置一个常数,如果超过这个常数,那么认为某个点是「异常」的。论文《Detecting Spacecraft Anomalies Using LSTMs and Nonparametric Dynamic Thresholding》 提到了一种动态设置阈值的方法,最近也是学习实现了一下。你可以在这里找到原文:Detecting Spacecraft A

2021-12-16 15:29:54 598

原创 OCSVM 学习笔记

OCSVM 学习笔记前言OCSVM(OneClass SVM) 算法是一种经典的异常检测算法,基本原理与 SVM 类似,与 SVM 关注的二分类问题不同的是,就像它的名字 OneClass SVM 那样,OCSVM 只有一个分类,这也正是异常检测所需要的,我们不关注那些异常的数据点。如果你不了解 SVM 可以点击这里: 支持向量机(SVM)学习笔记OCSVM 简介Our strategy is to map the data into the feature space correspondin

2021-12-16 15:29:26 4141

原创 梯度下降法学习笔记

梯度下降法学习笔记前言梯度下降法是一个经典的优化算法,在机器学习领域非常常见,很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中,梯度下降法是最简单、最常见的一种,在深度学习的训练中被广为使用。梯度下降法(GD)直观解释通俗来说,梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在当前位置的导数。讲到梯度下降法时,往往都会有这么一个例子:想象你站在山顶,现在你想以最快的速度下山,那么你肯定会选择最陡的路下山,走到一个位置,同样继续向着当前位置最陡峭的位置下山。简单来说

2021-12-16 15:28:46 135

原创 孤立森林学习笔记

孤立森林学习笔记前言「孤立森林」是一种常用于检测异常数据的算法,它具有线性时间复杂度以及较优的性能。作为一种「无监督」的算法,它在深度学习泛滥的今天,仍有着较好的表现。算法简介separating an instance from the rest of the instances作为一种异常检测算法,我们希望的就是在一些正常的数据中,找到那些异常值。可以预见的是,我们想要找到的这些异常数据点在某种程度上应该是「孤立的」,否则大量聚集的孤立点本身就不能称之为孤立,而应该是属于正常值,异常点本

2021-12-16 15:28:10 157

原创 MarkDown 学习笔记

MarkDown 学习笔记Markdown 是一种轻量级标记语言,创始人为约翰・格鲁伯。它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的 XHTML(或者 HTML)文档。 这种语言吸收了很多在 电子邮件中已有的纯文本标记的特性。由于 Markdown 的轻量化、易读易写特性,并且对于图片,图表、数学式都有支持,目前许多网站都广泛使用 Markdown 来撰写帮助文档或是用于论坛上发表消息。Markdown 编辑器Markdown 有许多优秀的编辑器,下面简单介绍几款,大家用自己常用的

2021-09-20 21:18:35 161

原创 正则表达式学习笔记

正则表达式学习笔记前言正则表达式(英语:Regular Expression,常简写为 regex、regexp 或 RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。简单来说,正则表达式就是做了这么一个事情:制定一个规则,而后根据规则去文本中寻找符合规则的字符串。它可以从一个基础字符串中根据一定的匹配模式替换文本中的字符

2021-09-20 21:14:38 341

原创 Git 学习笔记

Git 学习笔记Git 是什么?Git 是一个免费的开源分布式版本控制系统,旨在快速高效地处理从小型到大型项目的所有内容。Git 易于学习,占用空间小,具有闪电般的快速性能。它具有廉价的本地分支,方便的暂存区域和多个工作流等功能,其性能优于 SubCM,CVS,Perforce 和 ClearCase 等 SCM 工具。分布式开发免费开源速度快、体积小很多新手误以为 Git 就是 GitHub,事实上 Git 是一个版本控制系统,而 GitHub 是一个商业网站,虽然 GitHub 很

2021-09-20 21:13:26 88

转载 由数据范围反推算法复杂度以及算法内容

由数据范围反推算法复杂度以及算法内容一般 ACM 或者笔试题的时间限制是 1 秒或 2 秒。在这种情况下,C++ 代码中的操作次数控制在 107∼10810^7∼10^8107∼108 为最佳。下面给出在不同数据范围下,代码的时间复杂度和算法该如何选择:n≤30→O(n3)n \leq 30 \to O(n^3)n≤30→O(n3)指数级别,DFS + 剪枝,状态压缩 dpn≤100→O(n3)n \leq 100 \to O(n^3)n≤100→O(n3)Floyd,dp,高斯消元

2021-09-20 21:11:36 77

原创 快速幂算法详解

快速幂算法详解前言首先考虑这么一个问题{% note info %}给定三个正整数 a, b, m(a < 10910^9109,b < 10910^9109,1 < m < 10910^9109),求 aba^bab % m。{% endnote %}对于这个问题,只要写一个简单的循环就能够搞定// 普通求幂long long QuickPow(long long a, long long b, long long m) { long long ans =

2021-09-20 21:09:35 1754

原创 量化分析因子研究

量化分析因子研究前言所谓的因子也就是某个衡量标准,选择不同的因子作为选股的参考,往往会得到不同的结果,本文简单介绍了一些因子以及它所表示的意义。估值和资本结构因子账面市值比(BM)账面市值比 = 股东权益 / 公司市值 = 每股净资产 / 每股股价BM 因子属于估值因子,即通过对于 BM 值的高低可以直观反映出股票估值是否符合公司价值。结合 BM 值可以直观表达为:BM 值高于 1,说明股份对应的公司权益的价值高于股价,也就是说股票的价值被低估了最大 1 % BM 策略为每次选取可行股票池

2021-09-20 21:07:00 3083

原创 CTP 学习笔记

CTP 学习笔记前言综合交易平台(Comprehensive Transaction Platform,CTP)是专门为期货公司开发的一套期货经纪业务管理系统,由交易、风险控制和结算三大系统组成。前后研究了两个多星期 CTP,各种查资料,感觉总算是基本搞清楚了 CTP 是个什么东西(鬼知道我为什么要搞 CTP),说多了都是泪。本文主要通过对 CTP 简单案例的实现,对 CTP 进行简单的讲解,以及本人学习过程中遇到的一些坑。下载安装你可以在 上期技术官网 里面下载最新的 API 接口以及说明文

2021-09-20 21:04:27 8284 3

原创 K-means 学习笔记

K-means 学习笔记前言K-means 算法是最为经典的基于划分的聚簇方法,是经典数据挖掘算法之一。简单的说就是在没有任何监督信号的情况下将数据分为 K 份的一种方法, 也就是分门别类。K-means 算法算法原理{% note info %}基本思想:给定 K 值和 K 个初始类中心点,把每个点分到离其最近的类中心点所代表的类中,所有点分配完毕之后,根据一个类内的所有点重新计算该类的中心点(平均值),然后再迭代的进行分配点和更新类中心点的步骤,直至类中心点的变化很小,或者达到指定的迭

2021-09-20 21:00:19 177

原创 支持向量机(SVM)学习笔记

支持向量机(SVM)学习笔记SVM 简介在机器学习中,支持向量机(SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM 训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。简单点讲,SVM 就是一种二类分类模型,他的基本模型是的定义在特征空间上的间隔最大的线性分类器,SVM 的学习策略就是间隔最大化。SVM 算法原理线性可分以下图为例,可以发现,图中的实

2021-09-20 20:58:45 199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除