笔记
文章平均质量分 55
Happy丶lazy
这个作者很懒,什么都没留下…
展开
-
图像知识汇总
# 按照比例将图片切割img = cv2.imread(fname1)# 获取图片长宽高sp = image.shapesz1 = sp[0] # height(rows) of imagesz2 = sp[1] # width(colums) of imag# 取下部分四分之一# int((3 / 4)纵开始,sz1纵结束# 0 横开始,sz2横结束image = image[int((3 / 4) * sz1):sz1, 0:sz2]# 图片显示,停留一段时间cv2.imsho原创 2021-10-18 11:01:34 · 522 阅读 · 0 评论 -
笔记——知识蒸馏
带有笔记的文章是最近正在研究的内容,质量有可能很差,只有自己看的懂,所以看的笔记的大致看看就可以,我也正在积累,等感觉没问题了就会重新整理再发一次精确度上可以大大超过简单模型,但其巨大的计算成本使它们在实际应用中完全无法使用。目前,有三种方法可以压缩神经网络,同时保持预测性能:权值裁剪量化知识蒸馏知识蒸馏:让我们想象一个非常复杂的任务,比如对数千个类进行图像分类。通常,你不能指望ResNet50能达到99%的准确度。所以,你建立一个模型集合,平衡每个模型的缺陷。现在你有了一个巨大的模型,尽管它原创 2021-09-09 09:14:47 · 427 阅读 · 0 评论 -
百度课程——基于深度学习的自然语言处理
https://aistudio.baidu.com/aistudio/projectdetail/2335535一、词向量one-hot表示把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。 例如:苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系,且特征空间非常大。分布式表示word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的原创 2021-09-03 13:36:07 · 437 阅读 · 0 评论 -
笔记——Transformer
带有笔记的文章是最近正在研究的内容,质量有可能很差,只有自己看的懂,所以看的笔记的大致看看就可以,我也正在积累,等感觉没问题了就会重新整理再发一次transformer的整体架构是怎样的?由哪些部分组成?Transformer其实这就是一个Seq2Seq模型,左边一个encoder把输入读进去,右边一个decoder得到输出:Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化?GPT中训练的是单向语言模型,其实就是直接应用Transformer Decoder原创 2021-09-02 10:17:02 · 178 阅读 · 0 评论 -
笔记-Attention机制
带有笔记的文章是最近正在研究的内容,质量有可能很差,只有自己看的懂,所以看的笔记的大致看看就可以,我也正在积累,等感觉没问题了就会重新整理再发一次1、为什么要引入Attention机制?计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络中的长距离以来问题,信息“记忆”能力并不高2、Attenti原创 2021-09-02 10:07:15 · 1539 阅读 · 0 评论 -
笔记——文本相似度
带有笔记的文章是最近正在研究的内容,质量有可能很差,只有自己看的懂,所以看的笔记的大致看看就可以,我也正在积累,等感觉没问题了就会重新整理再发一次空间向量法把文章或句子进行分词,分成一个个词语。计算词语的TF-IDF值,公式:TF-IDF = TF*IDF将所有单词组成一个空间向量判断两个向量的空间距离 空间向量的距离可以通过计算两个向量的余弦距离来判断1千万行数据,48行 加载40秒1千万行数据,48行 判断1行与其余文件相似度 80秒局部Hash函数来计算文章的相似性1千万数据 加载原创 2021-09-01 09:39:07 · 695 阅读 · 0 评论 -
Python_Tika
Tika有一个解析器库,可以分析各种文档格式的内容,并提取它们。然后检测所述文档的类型,它从解析器库选择的适当的分析器,并传递该文档。不同类别的Tika方法来解析不同的文件格式。过程中可能会报错报错:Use tika with python, runtimeerror: unable to start tika server解决:这个是缺java包,可以去java官网(https://www.java.com/zh-CN/download/)中下载,记得吧环境变量配上,以及重新启动pycharm或j原创 2021-08-30 17:17:17 · 1374 阅读 · 0 评论 -
笔记——推荐算法
传统的召回算法一般基于双塔结构+ANN/MIPS常见的ANN/MIPS算法包括FBT,HNSW等传统召回算法的一个弊端:embedding训练目标与ANN目标不一致,ANN的损失无法学习解决方案: tree-based model,例如TDM,JTM,OTM等原创 2021-08-30 15:56:55 · 177 阅读 · 0 评论 -
笔记——对抗学习
早在 2014 年,Szegedy et al. [1] 发现只要对深度学习模型的输入添加一些微小的扰动就能轻易改变模型的预测结果。后续的研究将该种扰动称之为对抗扰动,扰动后的输入称为对抗样本,将输入对抗样本误导模型的这一过程称为对抗攻击。深度学习模型遭遇对抗攻击时所表现出的脆弱性,给实际应用带来了极大的风险。自然语言处理的应用比如文本分类、情感分类、问答系统、推荐系统等也都受到了对抗攻击的威胁在上述背景下,已经有大量的研究集中于提升深度学习模型对于对抗攻击的鲁棒性(也称为对抗防御),其中对抗训练是其中的原创 2021-08-27 13:37:28 · 805 阅读 · 0 评论 -
笔记_pytorch
pytorch 基础import torchtorch.empty(2,3) 创建一个形状为(2,3)的空张量torch.rand(2,3) 创建一个形状为(2.3)的随机张量,每个值在[0,1]之间向量x和y的点积x.dot(y)对x按元素求正弦值x.sin()原创 2021-08-20 10:55:20 · 128 阅读 · 0 评论 -
docker
1:docker产生开发与运维环境不同,导致系统部署不起来(不同的操作系统、软件环境不同、应用配置不同)2:代码,环境,配置封装成镜像是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。官网:https://www.docker.com/二:docker将软件环境安装配置好,打包成image,将镜像发布出去,简化环境部署和配置一次构建,处处运原创 2021-08-19 13:40:08 · 70 阅读 · 0 评论