- 博客(18)
- 资源 (16)
- 收藏
- 关注
原创 ord居然可以识别中文
1、ord居然可以识别中文bert BasicTokenizer时有if cp == 0 or cp == 0xfffd or _is_control(char),我这边是处理中文的预训练,之前用ord处理英文字符;看bert的Tokenizer源码,发现也是走这段代码ord('见')#输出:352652、字符和数字之间的转换ord("a")#97chr(97)#'a'参考网址https://blog.csdn.net/Jerry_1126/article/details
2020-08-31 14:04:35 649
原创 梯度消失与梯度爆炸产生原因及解决方法
1 、什么是梯度消失和梯度爆炸在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足。2、梯度消失、爆炸导致原因2.1、从BP(反向传播原理)解释梯度消失和梯度爆炸举例,一个简单的深层网络如下:图中是一个四层的全连接网络,假设每一层网络激活后..
2020-08-30 19:16:30 23398 7
原创 bert词典构建
参考网址https://www.yinxiang.com/everhub/note/c9c56496-cc07-4cf3-81d4-ff2a3353272f(bert三种token方式详解)https://github.com/fighting41love/funNLP(各种词库)https://tech.meituan.com/2019/11/14/nlp-bert-practice.html(美团实践)https://blog.csdn.net/u011984148/article...
2020-08-28 10:11:38 2653
原创 浅谈混合精度
参考网址:https://zhuanlan.zhihu.com/p/103685761 (浅谈混合精度的文章)https://flashgene.com/archives/81666.html(华为开源的哪吒)
2020-08-27 20:46:07 642
原创 fasttext安装
方式一、使用pip install fastText 命令安装这种方式报错:目前本人不知道怎么解决故采用了方式二来进行安装 git clone https://github.com/facebookresearch/fastText.git cd fastText pip install .安装成功!!...
2020-08-26 13:16:57 2417
原创 回文数字
1、题目:输出一个整数,表示通过插入若干个正整数使数组 a 回文后,数组 a 的数字和的最小值。eg:输入:851 23 52 97 97 76 23 51输出:5982、解题思路:思路一:动态规划。dp[i][j]表示i–j之间构成回文串的所有数字之和。那么状态转移方程就是:if(a[i]==a[j]) dp[i][j] = dp[i+1][j-1]+2*a[i];else dp[i][j] = min(dp[i+1][j]+2*a[i], dp[i][j-1...
2020-08-24 00:07:01 615
原创 LR模型详解
1、逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数方法,运用梯度下降来求解参数,来达到将数据二分目的。2、算法推导对数几率函数:是一种Sigmoid函数,通过此函数来输出类别概率。对数几率函数为:,其中y代表的是样本视为正样本的可能性,则 1-y为视为负样本的可能性。对数几率:定义为,其中y/(1-y)称为比率。决策边界:作用在n维空间,将不同样本分开的平面或曲面,在逻辑回归中,决策边界对应$wx+b=0。3、逻辑参数估计3.1、使用极大似...
2020-08-23 23:21:10 14309 1
原创 置信度学习
1、置信度学习置信度学习CL流程(图1)是用于表征,发现和学习带有标签错误的一系列理论和算法,该算法使用预测的概率和嘈杂的标签对未归一化的置信关节中的样本进行计数,然后归一化以估计联合分配,修剪噪音数据,生成干净的数据作为输出。...
2020-08-23 21:27:00 3991
原创 树模型浅谈
1、树模型的进化ID3->C4.5->CART->RF->boosting->Adaboost->GBDT->xgboost2、决策树决策树是一个有监督的分类模型,本质是选择一个能带来最大信息增益的特征值进行分裂,直到到达结束条件或者叶子节点纯度到达一定阈值。决策树的每个非叶子节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出。叶子节点存放一个类别,将存放的类别作为决策结果。2.1、ID3:以信息增益为准则来选择最优划分属性
2020-08-18 23:52:12 2195
原创 Transform详解
1、Transform简介Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。2、Transform结构
2020-08-18 18:50:55 108970 1
原创 词向量表示
1、语言表示语音中,用音频频谱序列向量所构成的矩阵作为模型的输入;在图像中,用图像的像素构成的矩阵数据作为模型的输入。这些都可以很好表示语音/图像数据。而语言高度抽象,很难刻画词语之间的联系,比如“麦克风”和“话筒”这样的同义词,从字面上也难以看出这两者意思相同,即“语义鸿沟”现象。1.1、分布假说上下文相似的词,其语义也相似。1.2、语言模型文本学习:词频、词的共现、词的搭配。语言模型判定一句话是否为自然语言。机器翻译、拼写纠错、音字转换、问答系统、语音识别等应用在得到若干候...
2020-08-12 23:53:10 4658 1
原创 总结较全的学习网址
https://www.zhihu.com/question/41667903/answer/109611087?utm_source=com.google.android.apps.docs&utm_medium=social
2020-08-12 00:24:06 108
原创 剑指offer-题目-思路-python实现61-67
61.二叉搜索树的第K个节点给定一棵二叉搜索树,请找出其中的第k小的结点。例如,(6,3,8,2,5,7,9)中,按结点数值大小顺序第三小结点的值为5。给定二叉树: 6 / \ 3 8/ \ / \2 5 7 9 思路:二插搜索树的中序遍历节点为排序数组,中序遍历节点,直接返回第k个数即可class TreeNode: def __init__(self,val): self.val=val self...
2020-08-10 23:48:24 143
原创 剑指offer-题目-思路-python实现51-60
51.构建乘积数组给定一个数组A[0,1,...,n-1],请构建一个数组B[0,1,...,n-1],其中B中的元素B[i]=A[0]*A[1]*...*A[i-1]*A[i+1]*...*A[n-1]。不能使用除法。先求前向乘积列表t_forword=a[0]*a[1]*...*a[i-1];存入b再求后项乘积列表t_back=a[len(a)-1]*a[len(a)-1]*...*a[i+1];b[i]*t_back得到最后结果class Solution: def mult
2020-08-10 23:38:42 260
原创 剑指offer-题目-思路-python实现41-50
41.和为S的连续正数序列输出所有和为S的连续正数序列。序列内按照从小至大的顺序,序列间按照开始数字从小到大的顺序。思路:因为是连续的整数序列,故从1开始;对于一个子序列,如果该子序列的值小于给定的值,则应该加上下一个值,如果大于该值,则去除序列中的第一个值,当序列中第一个值大于设定值的一半时,停止循环class Solution: def findContinueSeq(self,sumA): a,b=1,2 res=[] while
2020-08-10 23:24:43 327
原创 linux命令收纳
1、解压文件和压缩文件zip-r a.zip dir (dir为被压缩的路径)2、解压文件unzip a.zip (解压文件在当前文件下)unzipa.zip -dnew_dir (解压文件到指定目录,使用-d参数)
2020-08-07 14:54:10 89
原创 有code对应的论文访问网址
https://paperswithcode.com/area/natural-language-processing
2020-08-07 10:41:32 135
原创 剑指offer-题目-思路-python实现31-40
题目31:从1到n的整数中1出现的个数比如,1-16中,1出现9次,分别是1,10,11,12,13,14,15,16。思路:1-n个数中,循环除以10,余数为1,则count+=1;class Solution: def numOf1(self,n): num=0 for i in range(1,n+1): while i>0: if i%10==1:
2020-08-03 01:43:33 191
JAVA课后习题答案.doc
2014-11-14
女程序员后来都去做什么了
2023-12-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人