- 博客(210)
- 资源 (4)
- 收藏
- 关注
原创 SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models
目前基于指令的图像编辑方法,如InstructPix2Pix,由于在扩散模型中依赖于简单的CLIP文本编码器,在复杂场景下往往不能产生令人满意的结果。为了纠正这一点,本文介绍了SmartEdit,这是一种基于指令的图像编辑的新方法,它利用多模态大型语言模型(mllm)来增强其理解和推理能力。然而,在需要复杂推理的情况下,这些元素的直接集成仍然面临挑战。
2024-07-09 14:41:48 938
原创 Nerf相关研究
随着Luma AI的到来,再次将Nerf推向浪尖,实用性进一步得到强化。Nerf仍以极速的发展速度前行,越来越多的研究方向不断涌现。
2024-01-12 14:12:36 953
原创 Python实现深度迁移学习-CIFAR100-ResNet50
第二、三、四、五部分结构都包含了残差块,图 中的绿色图块不会改变残差块的尺寸,只用于改变残差块的维度。在 Resnet50 网 络 结 构 中 , 残 差 块 都 有 三 层 卷 积 , 那 网 络 总 共 有1+3×(3+4+6+3)=49个卷积层,加上最后的全连接层总共是 50 层,这也是Resnet50 名称的由来。对于每一张图像,它有fine_labels和coarse_labels两个标签,分别代表图像的细粒度和粗粒度标签,对应下图中的classes和superclass。
2024-01-10 11:35:21 981
原创 (详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
本文强调了扩展LVLM视觉分支的词汇量是非常重要的,并成功地设计了一个简单的方法来证明这一说法。实验表明,所提供的模型Vary在多任务中取得了不错的成绩,这主要得益于我们生成的新词汇。尽管Vary的表现令人满意,但我们认为如何有效地扩大视觉词汇量仍有很大的改进空间,特别是与成熟且相对简单的扩展文本词汇量的方法相比。我们希望Vary有用而高效的设计能够吸引更多的研究关注这一方向。
2024-01-10 11:05:37 1351
原创 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
现代大规模视觉-语言模型(LVLMs)采用了相同的视觉词汇-CLIP,可以涵盖大多数常见的视觉任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语环境中,CLIP风格的词汇可能在分词视觉知识方面效率较低,甚至遇到词汇表外问题。因此,我们提出了一种名为Vary的有效方法,用于扩大LVLMs的视觉词汇。Vary的过程自然地分为两个步骤:生成和整合新的视觉词汇。
2024-01-02 14:16:27 814
原创 3DSlicer相关介绍
Freesurfer是用于MRI图像处理和分析的一款开源软件,可以进行多种模态数据的预处理、皮层重建、volume与surface的互相 之间的配准等。Robot-assisted interventions 机器人的三维模型,解剖结构和可视化。图像分割、手术导航、针对新冠肺炎的肺部 CT 分析、实时3D超声重建、手术导航等等。开发平台,使用免费的开源软件快速构建和部署用于研究和商业产品的自定义解决方案。桌面软件,用于解决高级图像计算挑战,专注于临床和生物医学应用。Tractography 示踪成像。
2023-05-12 10:39:26 1401 1
原创 Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Superv
在室内和室外环境的实验中,我们发现nerflts:(1)比传统的全局nerf更有效地拟合和近似场景,(2)允许从任意视图中提取全景和测光渲染,(3)实现nerf很少执行的任务,如3D全景分割和交互式编辑。许多以前的方法都试图从图像中生成丰富的3D场景表示。KITTI是目前自动驾驶领域最重要的测试集之一,之前大概浏览了一遍,还存在很多疑问,这里对其做了进一步的学习,基本上了解了每个测试集的作用,KITTI主要是针对自动驾驶领域的图像处理技术,主要应用在自动驾驶感知和预测方面,其中也涉及定位和SLAM技术。
2023-05-10 10:00:00 337 1
原创 Ultra-NeRF: Neural Radiance Fields for Ultrasound Imaging
我们提出了一种物理增强的内隐神经表征(INR)用于超声成像,从重叠的超声扫描中学习组织特性。我们提出的方法利用基于光线跟踪的神经渲染进行新的视图合成。最近的出版物表明,INR模型可以从一组二维超声帧编码三维场景的表示。然而,这些模型未能考虑到超声成像固有的外观和几何形状的依赖于视图的变化。在我们的工作中,我们讨论了场景中依赖于方向的变化,并展示了受物理学启发的渲染提高了超声图像合成的保真度。特别地,我们实验证明,我们提出的方法生成几何上准确的b模式图像的区域,由于视图依赖的差异,超声图像的模糊表示。
2023-05-09 22:07:29 1411
原创 L_v2——成绩统计
小蓝给学生们组织了一场考试,卷面总分为 100 分,每个学生的得分都是一个 0 到 100 的整数。输出两行,每行一个百分数,分别表示及格率和优秀率。百分号前的部分 四舍五入保留整数。如果得分至少是 60 分,则称为及格。如果得分至少为 85 分,则称为优秀。请计算及格率和优秀率,用百分数表示,百分号前的部分四舍五入保留整 数。
2023-01-20 22:48:31 133
原创 NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
我们提出了一种新颖的神经表面重建方法,称为NeuS,用于从2D图像输入以高保真度重建对象和场景。现有的神经表面重建方法,例如DVR [Niemeyer等人,2020] 和IDR [Yariv等人,2020],需要前景掩模作为监督,容易被困在局部最小值中,并且因此与具有严重自遮挡或薄结构的对象的重建作斗争。同时,用于新颖视图合成的最近的神经方法,例如NeRF [Mildenhall等人,2020] 及其变体,使用体积渲染来产生具有优化鲁棒性的神经场景表示,即使对于高度复杂的对象也是如此。
2023-01-20 15:15:29 1166
原创 L_v1——单词分析
小蓝正在学习一门神奇的语言,这门语言中的单词都是由小写英文字母组 成,有些单词很长,远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词,他准备不再完全记忆这些单词,而是根据单词中哪个字母出现得最多来分辨单词。输出两行,第一行包含一个英文字母,表示单词中出现得最多的字母是哪 个。现在,请你帮助小蓝,给了一个单词后,帮助他找到出现最多的字母和这 个字母出现的次数。第二行包含一个整数,表示出现得最多的那个字母在单词中出现的次数。输入一行包含一个单词,单词只由小写英文字母组成。最大运行内存: 256M。
2023-01-13 15:09:53 122
原创 Python图像处理
美颜后的图像整体清晰度较差,随后使用伽马校正对图像进行再进一步的加强,提高图像清晰度。最后对图像的色彩阈值进行设置,低于最低阈值和高于最高阈值的值变为0,最低阈值和最高阈值之间的值变为255。最后通过两个for循环实现图像的合成,即图像的加运算,将人物图像与风景图像进行合成,实现人像迁移。7、利用步骤6得到的二值图像将步骤5得到的风景图像中用于合成人像区域的像素置为黑色后,与步骤4得到的人像图像进行合成,实现人像迁移。6、利用图像处理算法将步骤4得到的人像图像进行二值化处理,人像部分为0,背景部分为1。
2023-01-11 15:04:14 524
原创 搭建CNN网络训练fashion-mnist数据集(加入过拟合手段对比)
从以上准确率对比以及两幅loss值的变化图表可以得知,未加防止过拟合手段时,网络出现过拟合现象,添加防止过拟合手段之后,准确率提升,说明添加的防止过拟合手段是有效的。
2022-12-25 14:50:04 1078 3
原创 数据结构v4——顺序表的按照值查找序号操作
在顺序表L找第一个值为e的元素,找到后返回其逻辑序号,否则返回0。注意:由于线性表的逻辑序号从1开始,这里用0表示没有找到值为e的元素。在算法实现时,应根据顺序表数据元素的类型ElemType编写判断两个数据元素是否相等的比较函数equals()。举例说明:(1)数据元素的类型ElemType为int类型(2)数据元素的类型ElemType为char [20] 类型(3)数据元素的类型ElemType为自定义结构体变量类型,判断两个数据元素是否相等,就需要比较所有结构体变量成员。要求:int Loc
2022-12-05 14:10:51 978 2
原创 数据结构v3——顺序表的按照序号查找值操作
顺序表L已存在,先判断i值是否合法,如果合法,将顺序表L中第i个数据元素的值赋给e,e要带出函数体,类型声明为引用。
2022-12-05 14:08:39 383
原创 数据结构v2——顺序表的基本操作之插入操作
线性表的删除运算是指将表的第i(1≤i≤n)个元素删去,使长度为n的线性表( a1,…,ai−1,ai,ai+1,…,an),变成长度为n-1的线性表( a1,…,ai−1,ai+1,…,an)。算法思想:在顺序表上实现删除运算必须移动结点,才能反映出结点间的逻辑关系的变化。若i=n,则只要简单地删除终端结点,无须移动结点;若1≤i≤n-1,则必须将表中位置i+1,i+2,…,n的结点,依次前移到位置i,i+1,…,n-1位置上,以填补删除操作造成的空缺。算法分析:
2022-12-04 12:57:50 131
原创 数据结构v1——顺序表的基本操作之插入操作
时,在函数体内不需要改变主调函数中的实参变量的值,只需读取主调函数中的实参变量的值,因此函数形参定义为变量,采用值传递。,i-1上的结点,依次后移到位置n,n-1,…C++语言中用引用作函数的形参,被调函数对形参做的任何操作都影响了主调函数中的实参变量值,而操作一个变量比操作一个指针要简单的多,为了便于算法描述,本书函数参数传递机制采用有两种方式:值传递和引用传递。如果需要将函数中变化的形式参数的值反映在实际参数中,在C语言的实现中,就需要通过指针变量作形式参数,接收变量的地址,达到修改实参变量值的目的。
2022-11-30 22:59:42 3092
原创 JupyterLab安装
相比于jupyter notebook,jupyterlab可以通过安装插件,支持debug功能。如果你使用anaconda,比较新的版本是自带jupyterlab的。自己安装步骤如下:启动使用在命令行界面输入启动完成后,就可以看到如下界面:...
2022-07-14 15:54:28 1190
原创 机器学习(三)——机器学习方法的分类
强化学习又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。整个过程如下图,智能体不断跟环境做交互,环境会处于不同的状态,智能体根据环境不同的状态采取某一种动作,然后环境反馈给其一个信息,通过过程模拟和观察来不断学习/提高决策能力。有监督、无监督学习预先都要搜集好一个数据集,基于数据集去学习,而强化学习最开始没有搜集数据,它可以通过模拟和观察来生成数据,更接近人类的学习模式。...
2022-07-09 23:21:14 602
原创 机器学习(二)——基本术语
模型(model):计算机层面的认知学习算法(learning algorithm):从数据中产生模型的方法数据集(data set):所有的样本或示例组成了数据集。示例(instance)或样本(sample):对于某个对象的描述,每一个记录是一个示例或者是一个样本。属性(attribute)或特征(feature):反映事物或者是对象在某方面的表现或性能的就叫做属性或者是特征。属性值(attribute value):属性所对应的取值属性空间(attribute space)/样本空间/输入
2022-07-09 23:17:05 845
原创 LeetCode:9. 回文数——简单
题目:9. 回文数给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。例如,121 是回文,而 123 不是。提示:代码:提交记录:...
2022-07-06 18:05:01 215
原创 使用ID3算法构造决策树——python
补充python代码,完成DecisionTree类中的fit和predict函数。为了完成本关任务,你需要掌握:ID3算法ID3算法其实就是依据特征的信息增益来构建树的。其大致步骤就是从根结点开始,对结点计算所有可能的特征的信息增益,然后选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点,然后对子结点递归执行上述的步骤直到信息增益很小或者没有特征可以继续选择为止。因此,ID3算法伪代码如下:使用决策树进行预测决策树的预测思想非常简单,假设现在已经构建出了一棵用来决策是否买西...
2022-07-06 17:13:22 4799
原创 信息熵与信息增益——python
根据本关所学知识,完成calcInfoEntropy函数,calcHDA函数以及calcInfoGain函数。为了完成本关任务,你需要掌握:信息熵信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信源的不确定性越大,信息熵...
2022-07-05 21:31:40 3880
原创 C语言实例_5
写一个加法程序,输入整数a,b,输出他们的和。2.不使用第3个变量,实现两个数的对调不用第三个变量,实现将两个数进行对调的操作。3.用宏定义常量已知某物品单价为30,数量为x。求商品的总价钱。用宏定义物品的单价。4.计算总成绩和平均成绩编程求从键盘上输入一个学生的五门成绩,计算出该学生的总成绩和平均成绩。5.求三角形的面积编程求以a、b、c为边长的三角形的面积area。6.计算两个正整数的最大公约数编程计算两个正整数的最大公约数。其中求最大公约数的函数原型已经给出,请在主函数中编程调用函
2022-07-05 21:13:52 8016
原创 感知器 - 西瓜好坏自动识别——python
使用感知机算法建立一个模型,并根据感知器算法流程对模型进行训练,得到一个能够准确对西瓜好坏进行识别的模型。为了完成本关任务,你需要掌握:1.什么是感知器,2.感知器算法流程。数据介绍西瓜数据集中的样本特征一共有 30 个,包括:色泽、根蒂、敲声等。类别为是好瓜与不是好瓜。部分数据如下:由于我们的模型只能对数字进行计算。所以,我们用x1表示色泽,x2表示根蒂,x3 表示敲声 。y 表示类别。其中,x1 = 0,表示青绿,x2 = 2,表示稍蜷, y=-1,表示不是好瓜。具体如下图:而我们的...
2022-07-04 21:38:41 2769
原创 C语言实例_4
将十个数进行从大到小的顺序进行排列。2.查找整数给出一个包含n个整数的数列,问整数a在数列中的第一次出现是第几个。3.计算数组中元素的最大值及其所在的行列下标值按如下函数原型编程从键盘输入一个m行n列的二维数组,然后计算数组中元素的最大值及其所在的行列下标值。其中m和n的值由用户键盘输入。已知m和n的值都不超过10。4.删除最大值输入10个互不相同的整数并保存在数组中,找到该最大元素并删除它,输出删除后的数组5.杨辉三角还记得中学时候学过的杨辉三角吗?具体的定义这里不再描述,你可以参考以下的
2022-07-04 21:32:49 2070 2
原创 scikit-learn线性判别实践 - 随机生成数的降维——python
利用 sklearn 构建 LDA 对数据进行降维。为了完成本关任务,你需要掌握:1. LinearDiscriminantAnalysis。LinearDiscriminantAnalysis在降维时,LinearDiscriminantAnalysis 的构造函数中有一个常用的参数可以设置:LinearDiscriminantAnalysis 类中的 fit 函数用于训练模型,fit 函数有两个向量输入:X :大小为**[样本数量,特征数量]**的 ndarray,存放训练样本;Y :值为整...
2022-07-03 21:15:30 1452
原创 C语言实例_3
给出的程序的功能是删除字符串(字符数组)s中所有的小写字母c。请改正程序中的错误,使它能得到正确的结果。2.去除空格符编写程序,功能是删除输入的字符串中的所有空格。字符串长度不超过30。输入:一行字符。输出:打印输出去除空格符后的结果字符串。3.字符串操作编写程序,功能是将源字符串s中所有下标为奇数的字符或 ASCII码 为偶数的字符放入新字符(串)数组t中(规定第一个字符放在第0位中)。 并输出处理后新的字符串。输入:一行字符,长度小于20.输出:处理后的字符串。4.找最长字符串
2022-07-03 21:12:31 1331
原创 C语言实例_2
在全院10000学生中,征集慈善募捐,当总数达到10万元时就结束,统计此时捐款的人数,以及平均每人捐款的数目。2.求阶乘之和请用单重循环和双重循环(嵌套)两种方式来求1!+2!+…+10!的和。输出两种方式所得到的结果。函数cycle1()为单重循环实现,函数cycle2()为双重循环实现,请补充完整。注意两个函数均无返回值,请直接打印输出结果。3.公约公倍数写两个函数,分别求两个整数的最大公约数和最小公倍数,用主函数调用这两个函数,并输出结果。两个整数由键盘输入。4.编写函数求表达式的值有如
2022-07-02 22:46:16 2086 1
原创 线性判别分析 - 随机生成数的降维——Python
使用 python 实现 LDA 并对给定数据进行降维。为了完成本关任务,你需要掌握:1.线性判别分析算法思想,2.二类线性判别分析算法原理,3.线性判别分析算法流程。线性判别分析算法思想LDA 的思想分析非常朴素:给定训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本点的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。示意图如下:用一句话来概括 LDA 思想就是:投影后类内方差最小,类间方差最大。二类线性...
2022-07-01 19:39:53 1456
原创 LeetCode:1175. 质数排列
题目:1175. 质数排列请你帮忙给从 1 到 n 的数设计排列方案,使得所有的「质数」都应该被放在「质数索引」(索引从 1 开始)上;你需要返回可能的方案总数。让我们一起来回顾一下「质数」:质数一定是大于 1 的,并且不能用两个小于它的正整数的乘积来表示。由于答案可能会很大,所以请你返回答案 模 mod 10^9 + 7 之后的结果即可。提示:解析:n为1或2时,返回值为1。当n大于2时,通过遍历整除判断该数是否为质数,如果某个数可以整除i,那么i为合数。代码:...
2022-06-30 11:05:37 152
原创 Python—Leetcode1两数之和
给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1:输入:nums = [2,7,11,15], target = 9输出:[0,1]解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。示例 2:输入:nums = [3,2,4], target =
2022-06-29 22:19:28 194
原创 朴素贝叶斯分类算法流程——python
在炎热的夏天你可能需要买一个大西瓜来解暑,但虽然你的挑西瓜的经验很老道,但还是会有挑错的时候。尽管如此,你可能还是更愿意相信自己经验。假设现在在你面前有一个纹路清晰,拍打西瓜后声音浑厚,按照你的经验来看这个西瓜是好瓜的概率有80%,不是好瓜的概率有20%。那么在这个时候你下意识会认为这个西瓜是好瓜,因为它是好瓜的概率大于不是好瓜的概率。朴素贝叶斯分类算法的预测流程朴素贝叶斯分类算法...
2022-06-28 10:42:36 2220
原创 计算样本欧式距离——python
实现一个函数来计算欧几里得距离。通常数据集中的样本都可描述为一个 n 维向量。每一个维度代表样本的一个属性。比如,对于用户 x 而言,其属性可能是收入、年龄、工作时间等,对于电影而言,其属性可能是出品年份、导演、风格等。本关卡学习欧几里得度量。欧几里得度量(Euclidean metric)(也称欧氏距离)是一个常用的距离定义,计算 n 维空间中,两个样本点之间的几何距离。两个在 n 维空间的点的欧几里得距离为:本关卡要求你实现函数 euclid_distance,在右侧编辑器 Begin-End ..
2022-06-27 23:15:16 2985
Python数字图像处理实验
2023-01-03
计算机组成原理实验报告
2022-07-09
Python实例-课设作业管理系统
2022-04-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人