自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一介北漂

老夫是青岛人,我怀念我的故乡

  • 博客(111)
  • 收藏
  • 关注

原创 Min Spanning Tree-Prim‘s Algorithm-解法

prim

2022-07-12 13:41:12 178

原创 堆栈计算/二叉树表达简单数学表达式

利用堆栈方式,入栈出栈&运算符运算等级,进行计算; 同一级的运算符,递归计算完,作为一个整体,压入栈;如此反复;按照运算优先级递增的顺序压栈,如果出现非此顺序计算符,则将原来的运算符&数字出栈计算,结果再压栈;# ELEMENT=['+','-','*','/']import reLEVEL_1=['+','-']LEVEL_2=['*','/']LEVEL_3=['(']LEVEL_4=[')']def is_symbol(element): if ...

2021-10-29 12:00:19 348 1

原创 graph-attention-network

representationN is the number of Nodesnode featureneighbourhood+leakrelu->nodeupdatewith head=kmulti-head+neighbourhood->nodegraph相关的算法,都是相邻点的embedding表达,不断的迭代, gat就是 通过建立相邻边的attention,来拟合周边attention,multihead机制,提升图attenti

2021-09-23 10:46:11 177

原创 gaussian discriment analyse

gda: x as variance, P(y) as prior probility高斯分布公式梯度下降公式牛顿公式梯度下降公式logistic classificationinput:gda:基于类别的变量高斯分布,基于变量分布,带入label,进行P的输出判断lr:基于整体的分布,进行P的输出判断...

2021-09-17 13:56:17 93

原创 跳表算法总结

思路:将数值列表分段,每个段对应一个代表数值, 数值段排序;查询时候,从高层开始查询,递归溯源至底层两点之间,然后进行插入;插入时候,每层均插入该段的代表点应用:1.快速查询,数据进行分段 定位段首为代表值; 2.二分查找算法,将数据整理为二分形式,链表形式...

2021-09-11 16:39:27 91

原创 聚类算法-hnsw

1.hnsw 原理: 建立graph,目标是索引查询时候,可以从全局查找到距离最近点;为了在海量数据提速, 每个点的临近点要可以索引到全局变量,同时减少索引数据数量,所以要建立树形结构一样的数据形式,通过有限的节点搜索,得到全局的点。方式就是在插入时候,根据插入的先后,先插入的数据数量少,可以全局进行检索建立关联,后插入的数据。 建立多层 索引树, 每层的节点是下层的随机子元素,如此进行循环处理。相似度检索,每次从最上层检索最相近的点,然后继续进行检索,...

2021-09-09 13:52:16 638

原创 对话系统思考

话术澄清模块: 实体反问,query改写,话术推荐,确认选择触发条件:意图/faq置信度不足,实体缺失,referencehttps://developer.aliyun.com/article/276269

2021-06-28 11:00:31 90

原创 label-embedding

Joint Embedding of Words and Labels for Text ClassificationMulti-Task Label Embedding for Text Classification

2021-06-19 17:06:11 725

原创 关联数据挖掘

1.apriori:对每个关联关系中的元素进行所有xi2.fp-growth

2021-06-19 15:05:20 235

原创 keyword deep semantic matching paper ==>keyword 实现

基于 keyword deep semantic matching paper, keyword方面的关键代码复现应用:1.对同一个embed-represent 的表达, 从 a,b-keyword角度进行attenion生成新的向量,再进行拼接,生成整体的表示向量 2.基于a,b的keyword-mask,和 a,b的mask真实表示,生成新的attention-mask矩阵,keyword-b和seq-a有交互的地方标记为1,如此作为attention添加到s......

2021-04-26 21:47:03 488 1

原创 bert-flow

bert存在问题:共现: bert 模型的原理,利用上下文c对token的概率求导,本质是 c与token的共现关系编辑距离与similarity关系:bert模型编辑距离越大,similarity越小,edit-distance越小,similarity越大, bert-flow则相反,均匀分布,similarity与编辑距离无关高频词低频词与均值的分布关系,语义不完整的空间存在:以整体语义向量均值为原点, 高频词接近原点,低频词远离,分布不均,不在同一个空间...

2021-04-04 12:24:42 324

原创 soft-masked-bert

整体公式如下:总结: 门控机制引入,类比于lstm/gru, 进行e_i 和 e_mask的融合,门控机制通过sigmoid(gru) 进行计算, 同时 ce(fc(gru))可以计算是否coef的判别 纠错和预测作为multi-task创新点: 门控机制的类比,是参差网络的一种类似的结构,更多的信息处理, 对e_mask和e_i进行门控融合;业务层面引入e_mask作为对coef错误的替代; bert-enc...

2021-03-19 23:42:06 389

原创 二分法从排序数组中找出一个数组的左右区间

总结:常规的二分法确定一个target的区间,通过mid与left/right的大小,进行l/r_pointer的移动; 此处是确定一个区间,通过对target_tuple的分别确定,组合确定一个整区间错误之处:array[mid]==target时候,直接返回,不等于时候,根据移动l/r,决定+1/-1def binary_search(sub_array_1d,target): left=0 right=len(sub_array_1d) ...

2021-03-17 22:30:40 192

原创 分词逆向最大匹配算法

1.顺序遍历找出最长的词,依次递推,长度作为是否切分的评判标准 应用:分词,短语匹配# coding=utf-8import numpy as npimport pandas as pdclass IMM(object): def __init__(self,vocab_txtpath): self._vocabs=[] with open(vocab_txtpath,'r') as fr: for l...

2021-03-17 18:40:55 414

原创 编辑距离 python实现 及 核心dp公式

编辑距离核心dp公式# coding=utf-8import numpy as npdef edit_distance(string1,string2): len1=len(string1) len2=len(string2) matrix=np.zeros(shape=[len1+1,len2+1]) for i in range(len2): matrix[0][i]=i for j in ra...

2021-03-17 16:55:06 102

原创 attention

1.self-attention 对序列进行embedding增强,不做维度降维2.hierarchialAttention 对维度进行降维3.BahdanauAttention 对encoder-decoder进行encoer-embedding,不做维度降维

2021-03-13 19:41:59 169

原创 em算法

1.通常的算法 ,n个参数,通过最后的 观测值,偏导的形式进行参数学习拟合2.有一种情况,存在 隐状态的情况下,无法直接进行拟合 ,由带有隐状态的全概率 公式可知整体概率公式取log很难直接求就利用 em算法,迭代逼近最佳值隐变量和自变量,随机自变量 初始化,根据观测值,利用极大似然求隐变量如此循环 求隐变量和自变量...

2021-03-13 12:40:06 98

原创 对话流的自动化设计

**设计一个预训练模型,从 催收员与用户的对话中进行学习连续对话状态; 学习生成下一句,从句子级别进行分类或者生成**下游任务,学习 对话流的状态转移,语义embedding作为节点,进行随机游走...

2021-03-13 10:52:17 120

原创 二分查找变形--文本摘要依据相似度找到对应的应该抽取的句子

二分查找常规思路: 1.找到中间值,判断与待查找值大小,分别去左右序列中的中间值比较大小 2.如果某序列为空,则返回依据生成的文本摘要,从原文中找出对应的相似的句子,作为当前节点,由于summary的前后顺序性,所以可以理解为二分查找的思路,分别从左右继续进行查找核心逻辑def extract_matching(texts, summaries, start_i=0, start_j=0): ##?? 怎么抽取匹配 """在texts中找若干句子...

2021-01-23 16:20:17 181

原创

最大熵 maximum entropy 数据分布越均匀 ,熵越大,数据分布 趋向于极值,熵最小交叉熵 cross entropy 软交叉熵 softmax cross entropy 接近于最大熵 原理,分布越均匀 ,值越大 ,在 label数量 一定的情况下,log前后值越接近 ,值越大...

2020-12-25 00:10:36 149

原创 文本生成技术总结

decoder本质是一个lm问题常用框架:encoder+decoder, 技术: seq2seq+attention-mechasimencoder处理trick:增加feature输入维度要远好于语料累加; feature维度:tfidf,ner,posdecoder:利用 encoder-sequence+encoder-word-attention+encoder-sentence+attentionoov问题解决:lvt,利用decoder时候门口机制,generator/po..

2020-10-03 16:05:50 494

原创 transformer复现

"""原始 embedding,添加 position-embedding,multihead-attention: embedding->ff(q,k,v)-->split+concat-->mask--> attention-->scaled-dot-product-->softmax(qk)--> softmax(qk)*value-->residual,input+output-->layer-normalizationfea...

2020-06-27 12:27:54 629

原创 统计

样本 总体sample populationsample足够大,代表整体sample次数足够多,代表均值 期望 对应 加权平均 mean ,averrage 平均值,算术平均sample 代表 整体的可信度,引入置信度dispersion 离中趋势, 方差sample 取样数量多 ,接近于整体,趋向于中心轴样本离散在概率预测中代表什么概率预测在不同样本中 起伏大,说明不稳定,方差大,说明置信度低标准差,方差在概率预测中, 误差和标准差的关系?...

2020-06-05 00:16:54 342

原创 gbdt原理

分类,回归, 特征提取基函数的线性组合, 训练过程产生的残差,达到数据分类或者回归的目的每个 分类器在上个分类器残差的基础上进行迭代 ??残差基础上进行迭代什么意思?? 残差就是当前模型的 负梯度值每轮迭代产生弱分类器, 弱分类器的要求是 低方差,高偏差 ??高偏差如何理解 , 低方差高偏差,指的是谁的低方差,谁的高偏差 ?? 每轮迭代 如何理解每轮训练 得到的弱分类器加权求和得到?? 如果是 线性 组合 基函数, 那么 如果是分类正确,残差不大 ,怎么处理 呢0-1损失 函数

2020-06-04 00:38:16 182

原创 普通算法总结

1.bfs 广度搜索时间复杂度 O(V+E),所有节点和所有边都需要遍历,判断是否满足某个条件组合。 每条边都有两个Node,只算边的话,会有缺失,所以是 V+E三元组,词共现 类似于有向边,从前到后,所以E=所有边的数量,即O(n3)或者O(n2);并没有比遍历穷举快,只是另一种表现形式...

2020-05-07 08:33:39 214

原创 paper 记录

1.Hierarchical Attention Networks for Document Classificationword encode char encode =>sentence encode ==>attented-sentence encode=>document encode==>softmax

2020-02-23 23:00:03 439

原创 neural network

1.self-attention 理解:最终是要输出,假设按照输入长度输出,就要在每个位置有对所有输入有个softmax-weigth的累加。 softmax-weight 来自于 输入embedding 做k,输入embedding做v,矩阵转置相乘得到一个相同尺寸的矩阵,含义是每个位置上,所有位置对此位置的权重值,sofamax后即得到0-1之间的权重值w。然后 讲原始e...

2020-02-23 22:59:49 251

原创 leetcode-406-Queue Reconstruction by Height- 根据身高重建队列

假设有打乱顺序的一群人站成一个队列。 每个人由一个整数对(h, k)表示,其中h是这个人的身高,k是排在这个人前面且身高大于或等于h的人数。 编写一个算法来重建这个队列。注意:总人数少于1100人。示例输入:[[7,0], [4,4], [7,1], [5,0], [6,1], [5,2]]输出:[[5,0], [7,0], [5,2], [6,1], [4,4...

2020-02-14 16:24:27 146

原创 leetcode-402-remove k digits-移掉k位数字

给定一个以字符串表示的非负整数 num,移除这个数中的 k 位数字,使得剩下的数字最小。注意: num 的长度小于 10002 且 ≥ k。 num 不会包含任何前导零。示例 1 :输入: num = "1432219", k = 3输出: "1219"解释: 移除掉三个数字 4, 3, 和 2 形成一个新的最小的数字 1219。示例 2 ...

2020-02-13 17:20:30 181

原创 leetcodefe-135-candy-分发糖果

老师想给孩子们分发糖果,有 N 个孩子站成了一条直线,老师会根据每个孩子的表现,预先给他们评分。你需要按照以下要求,帮助老师给这些孩子分发糖果: 每个孩子至少分配到 1 个糖果。 相邻的孩子中,评分高的孩子必须获得更多的糖果。那么这样下来,老师至少需要准备多少颗糖果呢?示例 1:输入: [1,0,2]输出: 5解释: 你可以分别给这三个孩子...

2020-02-12 16:02:04 117

原创 leetcode-134-gas station-加油站

在一条环路上有 N 个加油站,其中第 i 个加油站有汽油 gas[i] 升。你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i+1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。如果你可以绕环路行驶一周,则返回出发时加油站的编号,否则返回 -1。说明: 如果题目有解,该答案即为唯一答案。 输入数组均为...

2020-02-11 13:43:07 159

原创 leetcode-996- Number of Squareful Arrays

给定一个非负整数数组 A,如果该数组每对相邻元素之和是一个完全平方数,则称这一数组为正方形数组。返回 A 的正方形排列的数目。两个排列 A1 和 A2 不同的充要条件是存在某个索引 i,使得 A1[i] != A2[i]。 示例 1:输入:[1,17,8]输出:2解释:[1,8,17] 和 [17,8,1] 都是有效的排列。示例 2:输入:[2,2,2]输出...

2020-02-10 16:36:37 199

原创 python 用法总结

class AttributeDict(dict): """Example of overloading __getatr__ and __setattr__ This example creates a dictionary where members can be accessed as attributes """ def __ini...

2020-02-09 22:36:35 109

原创 leetcode-990-Satisfiability of Equality Equations

给定一个由表示变量之间关系的字符串方程组成的数组,每个字符串方程 equations[i] 的长度为 4,并采用两种不同的形式之一:"a==b" 或 "a!=b"。在这里,a 和 b 是小写字母(不一定不同),表示单字母变量名。只有当可以将整数分配给变量名,以便满足所有给定的方程时才返回 true,否则返回 false。 示例 1:输入:["a==b","b!=a"...

2020-02-09 17:41:22 139

原创 数学总结集

def mse_loss(y1,y2): return tf.reduce_mean(tf.squared_difference(y1, y2))def arcface_loss(embedding, weights, labels, s=64., m=0.5, m3=0.1): # def arcface_loss(x,y) '''...

2020-02-08 23:11:34 147

原创 leetcode-841-钥匙和房间

有 N 个房间,开始时你位于 0 号房间。每个房间有不同的号码:0,1,2,...,N-1,并且房间里可能有一些钥匙能使你进入下一个房间。在形式上,对于每个房间 i 都有一个钥匙列表 rooms[i],每个钥匙 rooms[i][j] 由 [0,1,...,N-1] 中的一个整数表示,其中 N = rooms.length。 钥匙 rooms[i][j] = v 可以打开编号为 v 的...

2020-02-07 12:56:56 248

原创 leetcode-839

如果我们交换字符串 X 中的两个不同位置的字母,使得它和字符串 Y 相等,那么称 X 和 Y 两个字符串相似。如果这两个字符串本身是相等的,那它们也是相似的。例如,"tars" 和 "rats" 是相似的 (交换 0 与 2 的位置); "rats" 和 "arts" 也是相似的,但是 "star" 不与 "tars","rats",或 "arts" 相似。总之,它们通过相似...

2020-02-06 14:32:33 370

原创 leetcodee-802-find eventual safe states

在有向图中, 我们从某个节点和每个转向处开始, 沿着图的有向边走。 如果我们到达的节点是终点 (即它没有连出的有向边), 我们停止。现在, 如果我们最后能走到终点,那么我们的起始节点是最终安全的。 更具体地说, 存在一个自然数 K, 无论选择从哪里开始行走, 我们走了不到 K 步后必能停止在一个终点。哪些节点最终是安全的? 结果返回一个有序的数组。该有向图有 N 个节点...

2020-02-05 15:51:02 136

原创 bert

pretrain: nsp任务,调用 cls 进行训练优化 mask任务,调用sequence_embedding进行训练优化bert+dynamic_rnn-states+fcfc->[residual_layers,fc]bert transformer+fc->重新训练 为想输出的向量维度。bert+submodel 架...

2020-02-04 16:36:04 233

原创 leetcode785-is graph bipartite 判断二分图

给定一个无向图graph,当这个图为二分图时返回true。如果我们能将一个图的节点集合分割成两个独立的子集A和B,并使图中的每一条边的两个节点一个来自A集合,一个来自B集合,我们就将这个图称为二分图。graph将会以邻接表方式给出,graph[i]表示图中与节点i相连的所有节点。每个节点都是一个在0到graph.length-1之间的整数。这图中没有自环和平行边: gr...

2020-02-04 12:18:12 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除