游离态GLZ不可能是金融技术宅
码龄8年
关注
提问 私信
  • 博客:48,309
    动态:44
    48,353
    总访问量
  • 39
    原创
  • 558,216
    排名
  • 48
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-02-08
博客简介:

qq_37477357的博客

查看详细资料
个人成就
  • 获得49次点赞
  • 内容获得25次评论
  • 获得214次收藏
  • 代码片获得501次分享
创作历程
  • 1篇
    2022年
  • 2篇
    2021年
  • 32篇
    2020年
  • 4篇
    2019年
成就勋章
TA的专栏
  • NLP
    11篇
  • 机器学习
    15篇
  • 图神经网络
    1篇
  • 图卷积神经网络
  • 知识图谱
    5篇
  • 爬虫学习
    2篇
  • LeetCode刷题笔记
    8篇
  • 量化金融
    5篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 人工智能
    nlp
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

P-tuning的论文大白话阅读笔记和代码实现

P-tuning论文笔记与代码实现
原创
发布博客 2022.05.30 ·
1805 阅读 ·
1 点赞 ·
4 评论 ·
8 收藏

CRF原理的理解与举例分析

CRF原理的理解与举例分析1.以词性标注为例说明CRF的任务目标2.CRF的特征函数3. 从特征函数到概率4. VS逻辑回归5. VS HMM1.以词性标注为例说明CRF的任务目标句子BobdrankcoffeeatStarbucks可能的标注1名词动词名词介词名词可能的标注2名词动词动词介词名词……………一个长度为k的句子,有m种词性,则有kmk^mkm种可能的标注方法。针对上述例子,第一种显然优于第二种,因为动词+动词这种形
原创
发布博客 2021.01.18 ·
772 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

如何用MeCab训练一套中文分词软件

MeCab是一套采用CRF算法的开源日文分词软件(内嵌CRF++),由于其使用算法的通用性,可以通过其他语言的语料词典和基于对语言了解所设定的模板,利用MeCab训练日文以外的语言分词软件。本文则以中文为例,记录训练的流程方法。参考:https://zhuanlan.zhihu.com/p/86884557MeCab原理和设计参考:日文分词器 Mecab 文档MeCab设计结构:1.准备1.1 语料库准备采用icwb2-data数据集中提供的中文词库1.2 工作文件夹准备首先在icwb2-
原创
发布博客 2021.01.06 ·
840 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Transformer原理个人解读

文章目录1.为什么要有Transformer1.1 传统RNN-Based Model的缺点(1)不支持并行,效率低(2) 记忆能力有限1.2 Attention方法的出现2.Transformer的原理与结构Transformer的Attention——Self-Attention1.为什么要有Transformer任何一个新事物的出现都来源于对于传统方法的批判和新技术基础的出现。1.1 传统RNN-Based Model的缺点以NLP任务为背景,来分析一下传统RNN-Based Model的缺点
原创
发布博客 2020.12.01 ·
700 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Attention的基本原理与模型结构

我们尝试用人记忆和理解事物的方式来思考人工智能:在这里插入图片描述为什么我们需要引入这种Attention机制:以seq2seq为例:传统的seq2seq可以理解为让RNN从左往右看一遍要Encode的序列,并将记忆不断存入隐藏层。但是隐藏层的维度是有限的,就像人类的记忆力有限,当序列很长时,读到最后一个word时很可能已经对开头的word发生遗忘,要以看一遍的记忆完整复述整个序列或者对序列做翻译等操作,是存在局限的。因此我们可以借助人类产生工作记忆的方式,在decode时计算当前隐藏层和之前序列
原创
发布博客 2020.11.28 ·
450 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LeetCode421 数组中两个数的最大异或值(字典树应用)

题目描述给定一个非空数组,数组中元素为 a0, a1, a2, … , an-1,其中 0 ≤ ai < 231 。找到 ai 和aj 最大的异或 (XOR) 运算结果,其中0 ≤ i, j < n 。你能在O(n)的时间解决这个问题吗?示例:输入: [3, 10, 5, 25, 2, 8]输出: 28解释: 最大的结果是 5 ^ 25 = 28.分析首先将所有数字都转化为2进制,我们可以发现这题有一个明显的贪心思想:要想两数异或值最大,则要尽可能使得两数在高位上相异
原创
发布博客 2020.11.18 ·
174 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Trie树(前缀树/字典树)的介绍与实现方法

文章目录1.Trie树介绍2.Trial树的优缺点2.1 优点2.2 缺点3.Trie的典型应用3.1 字符串检索3.2 词频统计3.3 字符串排序3.4 前缀匹配3.5作为其他数据结构和算法的辅助结构4.Trie树的实现(LeetCode208)1.Trie树介绍Trie树,又叫字典树、前缀树,被广泛的应用在字符串匹配,搜索引擎关键词联想等问题上。Trie树是一种多叉树,具有以下性质:root节点不代表字符,除了根节点以外的所有节点每个都代表一个字符从根节点遍历到任意一个节点,遍历到的所有节点
原创
发布博客 2020.11.18 ·
658 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

LeetCode134 加油站问题——这又双叒叕是股票问题

今天刷每日一题做到加油站,神经敏感以为是动态规划,转念一想发现类似是股票问题中的单次购买问题。题目描述在一条环路上有 N 个加油站,其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i+1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。如果你可以绕环路行驶一周,则返回出发时加油站的编号,否则返回 -1。说明: - 如果题目有解,该答案即为唯一答案。- 输入数组均为非空数组,且长度相同。- 输入数组中的
原创
发布博客 2020.11.18 ·
217 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

动态规划单串——通杀股票问题

文章目录1.买卖股票的最佳时机分析代码2.买卖股票的最佳时机 II分析代码3. 买卖股票的最佳时机 III分析代码4.买卖股票的最佳时机 IV分析代码5. 最佳买卖股票时机含冷冻期分析代码6. 买卖股票的最佳时机含手续费分析代码1.买卖股票的最佳时机给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。如果你最多只允许完成一笔交易(即买入和卖出一支股票一次),设计一个算法来计算你所能获取的最大利润。注意:你不能在买入股票前卖出股票。示例 1:输入: [7,1,5,3,6,4]输出:
原创
发布博客 2020.11.17 ·
1289 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

论文浅尝|GRAPH-BERT: Only Attentionis Needed for Learning Graph Representations

论文简介论文提出:当前图神经网络(GNN)的主要方法过度依赖图中的连接关系,这样造成了三大问题:(1)模型假死;(2)过度平滑;(3)难以并行计算模型假死:随着神经网络层数的不断加深,模型对于输入的数据开始不进行相应。这个问题的具体原因没在论文里看到,个人理解是由于层之间的非线性变换使得数据分布变换置导数较小的区域,从而使得梯度消失。过度平滑:由于图神经网络大多依靠聚合操作(mean,max,sum)的信息更新方式,这样随着层的不断堆叠,每个节点都会大量受到其他节点信息的影响,从而使得每个节点的em
原创
发布博客 2020.10.23 ·
1253 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

论文阅读笔记:Graph Matching Networks for Learning the Similarity of Graph Structured Objects

论文做的是用于图匹配的神经网络研究,作者做出了两点贡献:证明GNN可以经过训练,产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graph attention-based matching mechanism),来计算出一对图之间的相似度评分。(核心创新点)论文证明了该模型在不同领域的有效性,包括具有挑战性的基于控制流图(control-flow-graph)的函数相似性搜索问题、软件系统漏洞检测。实验分析表明,图匹配模型不仅能够
原创
发布博客 2020.10.15 ·
2241 阅读 ·
4 点赞 ·
3 评论 ·
9 收藏

CRF条件随机场模型笔记

同上一篇《以序列标注为例学习隐马尔可夫模型HMM》一样,仍旧以序列标注问题为例。序列标注问题是给定一个序列XXX,求一个函数fff,使得XXX通过fff映射得到想要的序列YYY,即:f:X→Yf:X \rightarrow Yf:X→Y1.CRF基本假设与HMM模型认为P(x,y)是转移概率和发射概率的乘积不同,CRF认为:P(x,y)∝exp(ωϕ(x,y))P(x,y) \varpropto exp(\omega \phi(x,y))P(x,y)∝exp(ωϕ(x,y))其中ω\o
原创
发布博客 2020.09.12 ·
208 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

以序列标注为例学习隐马尔可夫模型HMM

隐马尔可夫模型(HMM)是可用于序列标注的统计概率模型,在自然语言处理、语音识别等领域有广泛的应用。本文以自然语言处理中经典的序列标注问题为例,说明HMM的原理与用法。1.序列标注序列标注问题是给定一个序列XXX,求一个函数fff,使得XXX通过fff映射得到想要的序列YYY,即:f:X→Yf:X \rightarrow Yf:X→Y2.序列标注中HMM的思路为了简便场景,选择序列标注中的词性标注作为代表。step1基于语法规则,生成一个词性序列,例如:“PN V D N”认为pos间
原创
发布博客 2020.09.11 ·
435 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

论文浅尝 | Enriching Pre-trained Language Model with Entity Information for Relation Classification

论文针对句子级别的关系抽取问题提出了一种结合BERT预训练模型和目标实体信息的模型。1. 文章主要贡献提出将 BERT 用在了关系抽取任务, 探索了实体和实体位置在预训练模型中的结合方式。可以通过在实体前后加标识符得方式表明实体位置, 代替传统位置向量的做法,论文也证实了这种方法得有效性。2. 论文模型详解2.1 数据预处理1)针对输入进来的句子,需要在句首增加[cls]符号2)在第一个实体前后增加$符号3)在第二个实体前后增加#符号e.g. “The kitchen is
原创
发布博客 2020.07.23 ·
355 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

论文浅尝 | K-BERT: Enabling Language Representation with Knowledge Graph

1.论文动机论文认为通过泛用型公开语料预训练得到的BERT模型只拥有“常识”,在特定垂直领域(如科技、医疗、教育等)的任务中表现效果存在提升空间。由于pre-training and fine-tuning在领域上的差异,利用BERT做知识驱动任务的时候表现不尽如人意。论文提出的K-BERT通过引进知识图谱(将知识库中的结构化信息(三元组)融入到预训练模型)中,可以更好地解决领域相关任务。如何将外部知识整合到模型是论文解决的核心难点,他存在两个问题:Heterogeneous Embedding S
原创
发布博客 2020.07.22 ·
1630 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

游离态GLZ的NLP任务2——用维特比算法实现词性标注

1.词性标注任务的基本分析2.训练集所需要构筑的数据A:词—词性统计库B:bigram模型下wi—wi−1w_i—w_{i-1}wi​—wi−1​统计库pi:句首词词性统计库#给每个单词和词性一个标号,并留下标号和词性转换的字典def generate_id_dict(): word2id,id2word = {},{} #word2id:{apple:0,banana:2...} id2word:{0:apple,1:banana} tag2id,id2tag = {},{}
原创
发布博客 2020.07.10 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

游离态GLZ的NLP任务1:拼写纠错

当我们使用搜索引擎的时候,经常会发现我们打错了我们想要检索的东西,但是搜索引擎仍旧给了我们正确的答案。比如我们把"python"打成了"pathon",百度成功识别了出来我们真正想要的。拼写纠错的核心在于编辑距离这一NLP任务的常用基础算法。编辑距离等于把一个字符串通过删除、修改、插入三种操作改为另一个字符串的最短距离(强烈建议刷一下这道DP题)。实现拼写纠错时,我们需要预先准备好一个词典库,代表常见的词汇(一般认为这些是正确的)。当用户输入一个可能拼写错误的词时,我们生成编辑距离一定的候选词,把这些
原创
发布博客 2020.07.07 ·
377 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

维特比算法的简单理解——以分词算法为例

在中文分词任务中,一个很棘手的问题是中文词中字组合的复杂性。例如句子:南京市长江大桥,这句话可以有多种分词方法都说的通:(1)南京市/长江大桥(2)南京/市长/江大桥在基于规则匹配的分词法中, 如果多种分法的词在词典中都能找得到,则会有多种可能。我们可以基于统计概率来得到每个词的概率,以此得到分词结果的概率。p(南京市/长江大桥)=p(南京市)p(长江大桥)p(南京/市长/江大桥)=p(南京)p(市长)p(江大桥)p(南京市/长江大桥) = p(南京市)p(长江大桥)\\p(南京/市长/江大
原创
发布博客 2020.06.26 ·
520 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

为什么机器学习(八)——来一发随机森林

随机森林是一种典型的集成学习算法。顾名思义,森林是很多棵树构成的,随机森林是多棵决策树构成的。类似治病会诊,会诊时会有很多医生每人给一个意见,最终投票选出最多人认可的意见。随机森林则是由每个决策树给出一个意见,最终投票最多的意见作为预测值。决策树的原理本质是一种贪心算法,每次遍历特征值可分割点,通过基尼系数等方式计算信息增益,找到最大信息增益并以此特征分割点分割。知道最大信息增益低于阈值时停止。随机森林使用了Bootstrap随机抽样,本质是一种抽取n次(n为样本数量)有放回的抽样。其中每次没抽中的概率
原创
发布博客 2020.05.30 ·
258 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

为什么机器学习(七)——一起快乐手推SVM

手写代码实现:import timeimport numpy as npimport mathimport randomdef loadDataSet(filename): dataArr = [] labelArr= [] with open(filename,'r') as f: for line in f.readlines(): line = line.split() dataArr.app...
原创
发布博客 2020.05.24 ·
274 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多