- 博客(172)
- 资源 (4)
- 收藏
- 关注
原创 【字节实习生模型训练代码注入】如何实现
最近,某知名高校硕士生在字节实习期间,因对团队资源分配感到不满,于六月底利用攻击代码破坏了团队的模型训练任务,造成较大损失。攻击手段包括,但不限于我们就来模拟一下攻击手段,只有了解如何攻击,才能知道如何防备。知己知彼百战百胜!
2024-10-28 21:54:41 147
原创 python pickle处理
如果你有自定义的类,可以通过实现getstate和setstate方法来控制其序列化和反序列化行为。# 返回对象的状态# 恢复对象的状态# 创建一个 Student 对象# 序列化对象# 反序列化对象。
2024-10-23 12:44:29 197
原创 向量数据库Milvus部署及试用
Milvus 是一种高性能、高扩展性的向量数据库,可在从笔记本电脑到大型分布式系统等各种环境中高效运行。它既可以开源软件的形式提供,也可以云服务的形式提供。
2024-10-17 18:31:03 415
原创 多模态大语言模型(MLLM)-Blip3/xGen-MM
没看到Blip和Blip2的一作Junnan Li,不知道为啥不参与Blip3整体pipeline服从工业界的一贯做法,加数据,加显卡,模型、训练方式简单,疯狂scale up。
2024-10-17 11:20:33 1228
原创 Parquet 和 CSV 格式相互转换
将 Parquet 转换为 CSV:可以使用pandas或pyarrow库。将 CSV 转换为 Parquet:可以使用pandas或pyarrow库。
2024-10-16 09:08:00 193
原创 LLM试用-让Kimi、智谱、阿里通义、腾讯元宝、字节豆包、讯飞星火输出system prompt
做一个简单小实验,让一些商用的LLM输出自己的system prompt
2024-10-10 13:06:34 669
原创 开源标注工具
安装非常麻烦,github更新频率比较低,支持功能和doccano类似。安装简单,可尝试(github上共17.1k star,且一直在更新)支持CV、NLP、语音等各种既定任务,及支持自定义任务标注。实测下来,发现标注大量数据可能存在问题,系统可能不稳定。大家有啥好的标注工具,也可以一起分享一下呀。后端代码未开放,可能有数据泄露风险。8年前的老系统,不敢用。
2024-09-25 12:48:19 466
原创 RAG的文档拆分策略
当前(20240925)的时间节点下,效果比较好的文档拆分策略为CharacterTextSplitter+ParentDocumentRetriever,能够较好得协调检索的精度和LLM的效果。
2024-09-25 11:52:24 893
原创 Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析
@[TOC](Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析)Focal Loss for Dense Object Detection(RetinaNet)论文及代码解析本文针对Focal Loss for Dense Object Detection做出自己的判断和解析,不一定代表正确性(鄙人并不做目标检测。。。)论文下载链接(arxiv国内镜像):http://xxx.itp.ac.cn/pdf/1708.02002v2论文代码
2020-05-18 00:23:39 556
转载 Random Erasing&Cutout——两种相似的数据增强方式
本文针对两种相似的数据增强方式——Random Erasing&Cutout进行解读。他们的相似点在于都是随机对输入图像遮挡一部分。Random Erasing论文下载链接:https://arxiv.xilesou.top/pdf/1708.04896.pdf论文代码:https://github.com/zhunzhong07/Random-ErasingMotivation...
2020-03-12 23:46:14 5203
转载 针对CNN的一种新的数据增强方式:RICAP
本文针对日本神户大学发表在ACML2018的一篇论文《RICAP: Random Image Cropping and Patching Data Augmentation for Deep CNNs》进行解读。MotivationsCNN在不同领域都取得了令人振奋的成绩,主要原因在于CNN中的大量参数能够拟合各种各样的数据分布。然而过多的参数,相比较而言较小的数据会导致一定程度的过拟合现象...
2020-02-14 00:44:02 1532
转载 属性预测相关论文阅读Ⅱ
转载自属性预测论文Cao J, Li Y, Zhang Z. Partially shared multi-task convolutional neural network with local constraint for face attribute learning[C]//Proceedings of the IEEE Conference on Computer Vision and...
2019-08-04 16:34:50 653
转载 属性预测相关论文阅读Adaptively weighted multi-task deep network for person attribute classification
转载自https://mp.weixin.qq.com/s?__biz=MzU4OTgzNjQ3OQ==&mid=2247483671&idx=1&sn=99c4a7aa29af4d67acccccd3c485d68b&chksm=fdc638c7cab1b1d111e90a542be807dff31e732de514283f82a208387c7cb57af062...
2019-07-28 19:14:33 1166
原创 End-to-end comparative attention networks for person re-identification
End-to-end comparative attention networks for person re-identification该论文中简单的关于attention的部分整体网络架构如下:CNN部分采用截断的预训练VGG Net,去除最后三层全连接层,得到特征X使用端到端的学习方式,优化下面提到的多任务loss函数多重任务loss函数:三元loss函数:分类的sof...
2019-02-15 17:56:13 948
原创 Canny算法
CannyCanny分为5个步骤1)、使用高斯滤波器,以平滑图像,滤除噪声。高斯滤波器是一种平滑空间滤波器,用于模糊处理和降低噪声。我们的高斯滤波器通过以下公式得到。我们运用该公式计算出高斯卷积核,如k越大,检测器对噪声的敏感度越低(即可以更好地筛去噪声),但是检测边缘的定位误差也会相应增加,一般我们设置5*5的高斯卷积核是一个比较好的衡量2)、计算图像中每个像素点的梯度强度和方向。...
2018-11-30 11:04:47 8784 3
原创 统计学习方法第二章
统计学习方法第二章思维导图(是不是像目录的结构,就这样结束太草率)具体解释:感知机感知机是二类分类的线性分类模式,输入为实例的特征向量(输入向量的不同分量结合在一起就是指特征向量),输出为实例的类别。感知机模型具体做的一件事情就是通过将W乘以X(都为矩阵)加上一个常数项来拟合数据。也就是书上说的得到一个分离超平面。(对于属性为二维的情况)感知机学习策略我们需...
2018-11-30 10:33:03 391
原创 编译原理-LL1语法分析器(消除左递归+消除回溯)
编译原理-LL1语法分析器(消除左递归+消除回溯)实验要求:要求一1、 给出文法如下:G[E]:E->T|E+T;T->F|T*F;F->i|(E);2、 根据该文法构造相应的LL(1)文法及LL(1)分析表,并为该文法设计预测分析程序,利用C语言或C++语言或Java语言实现;3、 利用预测分析程序完成下列功能:1) 手工将测试的表达式写入文本文件,每个表达...
2018-11-25 20:58:30 29804 22
原创 编译原理-词法分析器
词法分析器实验要求1、根据以下的正规式,编制正规文法,画出状态图;标识符 <字母>(<字母>|<数字字符>)*十进制整数 0 | ((1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9))八进制整数 0(1|2|3|4|5|6|7)(0|1|2|3|4|5|6|7)十六进制整数 0x(0|1|2|3|4|5|6|7...
2018-11-25 20:43:05 3361 6
原创 poj2480Longge's problem数论积性函数
Longge’s problem Longge is good at mathematics and he likes to think about hard mathematical problems which will be solved by some graceful algorithms. Now a problem comes: Given an integer N(1 &l...
2018-08-15 15:16:17 566
原创 最小生成树
最小生成树算法简介一个有 n 个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有 n 个结点,并且有保持图连通的最少的边。 最小生成树可以用kruskal(克鲁斯卡尔)算法或prim(普里姆)算法求出。简言之就是在一个连通图中找出一些边使得所有节点联通。算法描述虽然有很多可以实现最小生成树的算法,我们只讨论Kruskal算法。Kruskal(克鲁斯科尔算...
2018-08-14 09:16:44 392
原创 最短路算法
最短路算法松弛操作 松弛:v->w的距离可以通过p点来缩短,即 dis(v,w)<dis(v,p)+dis(p,w)Dijkstra算法(单源最短路)维基简介: 戴克斯特拉算法(英语:Dijkstra’s algorithm)由荷兰计算机科学家艾兹赫尔·戴克斯特拉在1956年提出。迪科斯特拉算法使用了广度优先搜索解决赋权有向图的单源最短路...
2018-08-14 09:15:53 436
原创 线段树
概念线段树是一种二叉搜索树,与区间树相似,它将一个区间划分成一些单元区间,每个单元区间对应线段树中的一个叶结点。 使用线段树可以快速的查找某一个节点在若干条线段中出现的次数,时间复杂度为O(logN)。而未优化的空间复杂度为2N,实际应用时一般还要开4N的数组以免越界,因此有时需要离散化让空间压缩。 这是百度百科的解释,我理解的还比较浅,不是特别理解 这里有一篇讲的比较好的博客可以推荐一...
2018-08-14 08:31:34 231
原创 拓扑排序
拓扑排序算法简介 在计算机科学领域,有向图的拓扑排序或拓扑排序是其顶点的线性排序,使得对于从顶点u到顶点v的每个有向边 uv,u 在排序中都在v之前。 例如,图形的顶点可以表示要执行的任务,并且边缘可以表示一个任务必须在另一个任务之前执行的约束; 在这个应用中,拓扑排序只是一个有效的任务顺序。 如果且仅当图形没有定向循环,即如果它是有向无环图(DAG),则拓扑排序是可能的。 任何...
2018-08-14 08:30:09 324
原创 数论
数论数论是一个比较大的话题,慢慢更素数素数母函数母函数gcd//欧几里得,又叫做最大公约数int gcd(int a,int b){ return b==0?a:gcd(b,a%b);}int gcd(int big, int small){ if (small > big) swap(big, small); ...
2018-08-14 08:29:02 405
原创 权值线段树
权值线段树简介维护全局的值域信息,每个节点记录的是该值域的值出现的总次数。使用二分的思想(离散化的时候,需要用到)支持查询全局K小值,全局rank,前驱,后继等。单词操作时间复杂度为O(logn)空间复杂度为O(n)相对于平衡树的优势:代码简单,速度快劣势:值域较大时,我们需要离散化,变成离线数据结构(我认为的离线指的是不能更改插入之类的操作,只能进行查询)例题...
2018-08-14 08:25:47 1079
原创 树的遍历
树的遍历我们知道树的遍历分为三种情况,前序,中序,后序,层序遍历 我们现在要讨论的问题是得知前序和中序,求得后序和层序遍历 或者得知后序和中序,求得前序和层序遍历得知后序和中序,计算层序#include<iostream>#include <cstdio>#include <set>#include <queue>#i...
2018-08-14 08:23:36 263
原创 动态规划
线性DP简单的线性递推每一项都是由他的前一项递推而来, 例如 当m=2,c1=c2=a1=a2=1时,是斐波那契数列。咱们需要算出第n项,咋算: 使用矩阵快速幂: 对于如下方程, 对于更加复杂的内容,我们可以通过如下操作 最长上升子序列首先,我们都知道一个n平方的DP做法,我们假设dp[i]是以a[i]结尾的最长上升子序列的值,那么我们可以找...
2018-08-14 08:22:11 1378
原创 大数运算
我们知道任何数值都有范围一说,c++肯定也一样 int表示32为整数 longlong表示64位整数 数值过大就会存在溢出的情况 怎么办? 大数教你做人大数加string add(string a,string b){ string c; int len1=a.length(); int len2=b.length(); int len=ma...
2018-08-05 17:12:59 770
原创 Rmq算法
RMQ问题(Range Minimum Query):概念对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A中下标在[i,j]里的最小(大)值,也就是说,RMQ问题是指求区间最值的问题。求解方法:朴素方法:我们预处理阶段时间复杂度为:O(n) 我们查询阶段时间复杂度为:O(n)线段树:这是一个比较简单的线段树问题,...
2018-08-05 17:11:26 371
原创 Linux小结
Linux第一章、Linux常用指令第二章、Shell编程第三章、Linux系统C开发工具第四章、Linux环境下的系统函数的使用第五章、文件IO操作第六章、进程控制第一章、Linux常用指令帮助命令:man,help,info文件系统命令Linux文件类型:普通文件目录文件符号链接文件设备文件管道文件Socket文件文件...
2018-08-05 17:10:26 306
原创 Lca相关算法
Lca相关算法简介在图论和计算机科学中,最近公共祖先是指在一个树或者有向无环图中同时拥有v和w作为后代的最深的节点。在这里,我们定义一个节点也是其自己的后代,因此如果v是w的后代,那么w就是v和w的最近公共祖先。最近公共祖先是两个节点所有公共祖先中离根节点最远的,计算最近公共祖先和根节点的长度往往是有用的。比如为了计算树中两个节点v和w之间的距离,可以使用以下方法:分别计算由v...
2018-08-05 17:07:23 399
原创 c++继承之隐藏
隐藏概念:隐藏是指派生类的函数屏蔽了与其同名的基类函数。代码实例:#include <iostream>using namespace std;class Person{public: Person(){ cout<<"Person的构造函数"<<endl; } ~Person(){ ...
2018-08-05 17:03:29 504
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人