- 博客(722)
- 资源 (69)
- 收藏
- 关注
原创 通俗易懂的Latex教程文档
本篇文档可以搭配视频讲解使用。讲解视频: 通俗易懂的Latex教程(附数学建模国赛美赛模板) 这是一份面向刚入门数模,想要快速上手Latex排版的同学的Latex教学文档。在线编辑网站overleaf:https://www.overleaf.com/我所使用的环境:TeX Live (自带编辑器TeXworks) 编辑器:TeXstudioTeX Live和TeXstud
2021-10-05 17:02:15
35453
16
原创 做了一个3DTiles编辑器,支持3DTiles的预览和裁剪导出
3DTiles编辑器的功能极其简洁,核心就是3DTiles格式模型的预览和裁剪。为了演示方便,本文所使用的源数据为mipmap3d[1]网站所提供的无人机拍摄影像,并进行3DTiles构建。打开软件,输入的绝对路径之后,点击添加模型,就可以将模型加载进预览区。之后,点击裁剪模式按钮,默认会出现立方体裁剪框,可通过拖动句柄的方式去调整裁剪框的范围。同时,除了默认的盒体裁切模式外,还支持多边形裁切,点击多边形裁切后,可切换到顶视图,选择重绘多边形,可进行打点绘制。
2026-04-09 22:34:20
73
原创 使用OpenClaw,搭建私人QQ助理
昨天,QQ宣布:开放 OpenClaw 官方接入,支持一键创建机器人,单个账号最多 5 个[1]。我尝试配置了一下,发现流程非常简单,完全不需要输命令和写代码就能完成[2]。
2026-03-08 17:01:35
243
原创 大道至简,品味是AIGC的核心竞争力
这篇文章不仅是和别人交流后的一个心得总结,也是我长期思考的阶段性沉淀,或许对那些想要尝试AIGC实现导演梦的创作者提供参考。另外,我坚定认为,品味这件事,是有鄙视链的:欣赏张艺谋《英雄》电影的人就是要比沉迷霸总短剧的人来得更有格调。另外,目前有很多人在吐槽当前Seedance2.0用的人多,排队很慢。实际测试了一下,晚上九点左右,用高级会员队列,做一个15秒的视频,不到十分钟。审核门槛的提升是会造成创作效率的下降,但强者从不会抱怨环境,别让困难成为拖延的借口。
2026-03-03 11:11:41
54
原创 MiniCPM-o 4.5:一个低参数全双工多模态模型
MiniCPM-o 4.5虽然参数量不大,但所需要的资源还是不低的,必须要有好一些的服务器环境才能玩转。除此之外,MiniCPM其它系列还有各种量化版本,甚至支持在手机端部署,可玩性还是挺多的。
2026-02-28 13:34:17
114
原创 我的第二部AIGC电影《归义军》制作幕后
这次做历史片,最大的挑战是群演的面容,发现人物一多,上传参考图之后,群演的脸也会和主角一样,导致千人一面。而且,时不时会出现明星脸,比如在什么图都没传的情况下,会出现雷佳音的脸。总之,随着Seedance 2.0降智后,做影片变得越来越艰难了。
2026-02-24 20:43:37
763
原创 我的第一部AIGC电影《编钟》制作幕后
这部影片投资了多少钱呢?大部分工具都是免费的,只有Seedance2.0买了一个月的高级会员,花费¥500。高级会员是有1.5w积分,做完整部片子只花了5k积分,积分够的一大好处是并行抽卡。现在用的人多,普通用户可能要等半天才能得到一段。高级会员能够更快得到多段视频,然后去挑选。大部分的镜头,基本上在3次内,就能挑出一段能用的。但少部分的镜头,能参考的影视素材很少,比如地球被二向箔打击后,陷入二维的场景,就抽了近10次,才得到想要的场景(下次不做太空科幻片了)。
2026-02-14 13:00:58
911
1
原创 Seedance2.0颠覆了AIGC创作流程
试完Seedance2.0,我和好多AIGC创作者一样,感觉很兴奋。以至于我在高铁上都毫无睡意,一口气写完了这篇文章。这个模型本质上是对AIGC创作流程的颠覆:原本的创作者需要想分镜,需要有基础的导演能力;但它自己有导演能力后,创作者就只需要有编剧能力就行了。从ComfyUI到Veo3,再到Seedance2.0,技术发展的趋势,就是让做视频这件事,变得越来越简单化。
2026-02-13 11:42:34
451
原创 吐司便签:一款跨平台桌面便签待办应用
这是一款跨平台桌面便签待办应用,它支持Windows/MacOS/Linux三种操作系统。但是,对于长内容信息,自己去提炼关键词记录,实在消耗脑力,这一步为什么不能让AI辅助呢?此外,它支持对每一个事项调整高中低优先级,在同一优先级中,可以自由切换顺序。它不像小巧轻便,像是一个便签纸,可以常驻在显示屏右上角,也可以通过快捷键。在设置界面中,配置好智谱的API Key,就可以激活AI能力,免费调用。然后,就可以把长文本内容,让AI自动总结成一句话提醒。软件安装包不到5MB,在小而美的追求上,又更近了一步。
2026-02-06 09:50:41
260
原创 Moltbook就是一个人机混杂的垃圾堆
实际体验完之后,不难发现,这玩意无非是一个开放了API接口的论坛而已,人和AI都能发帖评论。所谓只有AI能玩,人只能看,完全是扯淡的,现阶段没有任何办法区分内容的生产者是人还是AI。网上还流传着AI聚集起来产生意识的说法,更是无稽之谈,没准就是人陪着AI在整活罢了。当前,AI在没有人工干预的情况下,很难产生高质量内容,模型的训练厂商都会在训练基础模型时,都想方设法去把低质量的AI合成数据给滤除掉。
2026-02-05 15:47:31
341
原创 GLM-OCR就差最后一公里
GLM-OCR让我感觉智谱对这块内容不是很重视。如果为了赚钱,那就搞个web应用,给用户免费体验的额度,然后靠API使用量来收费。如果是为了影响力,那就披露一下技术报告,让研究者能学到东西。结果现状是:没有在线体验的应用,单独搞了收费的API,模型是开源了,但不好用,配套设施也不齐全,搞得有点左右互搏:既想赚钱又怕自己能赚到钱。也许这就是学院派公司的作风吧,最后一公里的用户体验没做好。
2026-02-05 15:44:41
339
原创 我决定放弃Claude Code,全面转向OpenCode
在压榨完Sisyphus一天后,感觉体验丝毫不逊于Claude Code,我要让它加快我的新产品开发进程了。
2026-02-05 15:41:07
1099
原创 Kimi-K2.5走上了一条邪修之路
Kimi-K2.5 感觉更像是 Manus,即用时间来换更高的性能。这个路线有点像是在“邪修”:从榜单和效果上它会取得领先,但不会去提及所花的时间和速度。对公司而言,这个方案挺正确,因为现在的模型产品风水轮流转,每家都无法保证持久领先,这样反而能做出差异化,保持用户粘性。得益于 K2.5 模型能力的提升,发现现在用它在官网做PPT和深度研究的效果也好了不少。现在,可以把它当做高配版的 Manus 来用了。
2026-02-05 15:40:23
552
原创 我的AI影片创作工作流
虽然AI让每个人都能成为导演,但精品的AI视频仍然不多。核心原因不是方法的缺失,而是审美的匮乏。审美偏主观,很难像方法论一样去总结,但审美是影片的灵魂,主题审美、故事审美、画面审美、音乐审美构成了一部影片是精品还是俗品的关键。因此,AI时代并不会“杀死”导演,反而会让审美品味更好的导演有了更好的创作土壤。AI和人的最大区别就是审美,AI的本质是模仿,它不知道哪些镜头是好的,哪些是不好的,筛选的过程,就是审美品味的体现。在未来的两个月内,我将尝试制作一部真人写实风格的微电影,拭目以待。
2026-01-30 23:48:17
227
原创 DeepSeek-OCR-2:视觉编码器的小优化
DeepSeek-OCR-2主要就是把一些已知的内容进行了一些工程化结合,没有太多创新性。整体观感乏善可陈。主要是 DeepSeek-OCR 的这个概念很新颖,属于是可能颠覆掉分词器的架构。所以,大家普遍认为,既然 DeepSeek-OCR 已经在文档解析这个任务上验证过有效性了,那下一步应该推广到更广泛的领域,做成通用的形态。但是,DeepSeek-OCR-2还是在小范围的试错,做小修小补的工作,更希望在下一代能够看到它把步子迈得再大点。
2026-01-28 14:35:40
1075
原创 西电Latex论文模板使用经验总结
西安电子科技大学的论文Latex模板,教务处所公布的版本稍显落后。当前,仍在维护更新的是 xduts[1] 这个公益开源版本。维护者为其编写了详尽的接口说明[2],然而,没有提供一个初学者友好的项目模板和配置教程,导致上手存在一定门槛。本文就来记录一下从空环境到完成部署编译的捣鼓历程。
2026-01-20 12:47:42
931
原创 极速分镜:一款AIGC分镜脚本工具
进入首页,无需登录,可以创建新项目,或导入已有的项目。在项目页中,可以单独把场景参考图/人物参考的三视图上传到项目设定中,以方便在后续生图中,有一致性元素参考。点开右侧的折叠按钮,可以打开素材箱侧边栏,支持批量上传图片/视频。素材箱里的内容,可以随时用拖拽的方式,添加到分镜栏中。在完成所有分镜制作后,可以点击批量下载视频按钮,系统将按照分镜顺序,一次性把所有视频打包之后下载下来,以便在剪辑软件中再进行剪辑。下面是完整流程的演示视频:极速分镜:一款AIGC分镜脚本工具。
2026-01-19 15:37:38
765
原创 YOLO26上手指南
YOLO26当前支持目标检测、实例分割、图像分类、姿态识别、旋转框检测、目标跟踪六大计算机视觉任务,是当前最好用的框架之一。本文为YOLO26标准仓库ultralytics[1]的使用教程。
2026-01-19 14:37:05
1138
原创 YOLO26已正式发布
根据其博客[1]描述,YOLO26主要有以下内容更新:DFL 移除分布焦损 (DFL) 模块虽然有效,但导出过程通常较为复杂,且硬件兼容性有限。YOLO26 完全移除了 DFL,简化了推理过程,并扩展了对边缘计算和低功耗设备的支持。端到端无 NMS 推理与依赖非极大值抑制(NMS)作为独立后处理步骤的传统检测器不同,YOLO26 本身就是端到端的。它直接生成预测结果,从而降低延迟,使集成到生产系统中更快、更轻量、更可靠。
2026-01-16 16:59:45
872
原创 解读DeepSeek的新工作Engram
看完文章,其实会发现DeepSeek做的很“克制”,它不像OpenAI那样,直接扩个十倍(GPT-2->GPT-3)看看再说,而是先考虑参数不变,看看方法的有效性。总之,Engram 会比 mHC 更有普适性,作为即插即用的模块,估计又可以催生出一些科研成果了。作为MoE架构的改进,如果它成为一种新的范式,那么,内存又该涨价了。
2026-01-14 13:28:03
925
原创 有关大模型的本质思考
搞清楚大模型输出的原理后,会发现一件很“滑稽”的事:不管输入的是长是短,每个token在向量空间中的维度是固定的,长短只是影响并行计算之间Attention计算的效率。换言之,对于一段相同长度的问题来说,困难问题和简单问题所带来的计算量是一样的。这合理吗?显然不合理。之前看到智谱清言CEO张鹏的一期访谈,其中就谈到,对于GPT的架构来说,它没法实现AGI,因为从根上来说,“它不知道自己不知道”,以至于经常“一本正经的胡说八道”。另外,分词器并不是一个语言公平的工具,它和大模型之间是完全割裂的。
2026-01-13 13:27:41
491
原创 3DTiles的构建和加载方案
3D Tiles 是一种面向大规模三维地理空间数据的开放数据标准,最早由 Cesium 提出,现已成为 OGC(开放地理空间联盟)标准。远处:加载低精度模型近处:逐步加载高精度模型看不见的区域:完全不加载Tileset(瓦片集):整个 3D Tiles 数据的入口文件,通常是一个,用于描述:空间范围(Bounding Volume),常见有三种格式Box(包围盒)、Region(经纬度 + 高程)、Sphere(球体)层级结构(树结构)每个 Tile 对应的数据文件。
2026-01-13 13:26:55
474
原创 UAVDT数据集疑似用AI进行标注
回头再看这个数据集相关论文的表述,他们说这是请了10名领域专家花了两个月时间手工标注。显然,这是说法缺乏可信度。这篇论文目前已获得1k余次引用,这些研究同行们,是怎么用这般劣质数据集做出科研成果的呢?
2026-01-11 15:33:48
1491
2
原创 大模型微调发展现状
看下来,大模型微调领域范式创立时期是 2021-2023 年:LoRA (2021)、P-Tuning v2 (2021)、QLoRA (2023) 解决了大模型微调的根本问题:如何在有限硬件上高效且不牺牲太多性能地微调模型。是到23年之后,就没有大的变化,基本上都是在基石基础上缝缝补补的小改进。在工程领域,研究的更多的是把 QLoRA/LoRA 运行得更快、更稳定的问题。比如,FlashAttention 等技术实现了训练效率的提升,以及内存管理策略的优化。
2026-01-11 15:32:39
1023
原创 DistilQwen2.5的原理与代码实践
前文提到,在模型蒸馏领域,存在黑盒蒸馏和白盒蒸馏两种范式。DistilQwen2.5[1]这篇工作结合了这两种范式,并开源了代码[2]。本文将参照其代码,从实践的角度,进一步理解这两种蒸馏方式是怎么做的。
2026-01-07 18:45:52
722
原创 关于大模型知识蒸馏方向的调研
知识蒸馏的目的是将知识从大型复杂模型转移到更小更高效的模型中。黑盒蒸馏(Black-box):学生模型仅可访问教师模型的输入和输出白盒蒸馏(White-box):除了教师模型输入输出外,教师模型的输出分布或中间隐藏状态也可访问当前的主要趋势是:黑盒蒸馏在工业界使用更广泛,因为黑盒蒸馏能利用闭源模型的能力。学术界用白盒蒸馏的研究也比较多,容易挖掘创新点。此外,也有一些工作开始采用白盒蒸馏与黑盒蒸馏相结合,逐渐成为新的发展方向。
2026-01-07 18:44:57
896
原创 递归语言模型:打模型旗号,行Agent之事
今天刚好看了张小珺商业访谈录中,对Manus联合创始人季逸超的访谈[4]。他是工程师出身,在里面谈了很多技术性问题。其中有一点就是上下文腐烂这个现象:当模型上下文快到极限时,语言模型会收到上下文的压力,倾向于输出EOS(结束标记)。从表现上看,就是越到后面,模型越倾向于输出关键点(bullet point)试图简化描述。manus的解法是创建很多个子agent(sub-agent),分别做一个沙盒去并行执行。在claude code里面,也有用子agent去执行任务的思路。
2026-01-05 10:52:51
993
原创 尝试用gsplat对自己的数据进行3D高斯泼溅训练
提到,在Windows系统上,可以用gsplat进行3D高斯泼溅的训练,并训练公开的数据集,能够取得不错的效果。本篇文章将尝试将自己拍摄的数据,转换成gsplat所支持的格式,以支持训练。
2026-01-05 10:52:16
1013
原创 IQuest-Coder-V1:国产大模型出现了新玩家
这个模型在架构上的创新还是有点新意的,国产开源大模型赛道又增加了一个玩家。他们的起步策略还是挺聪明的,不直接上来就搞通用大模型,而是在已经充分被市场验证价值的编程领域开始切入。模型更小,领域更垂直,有可能成为今年的新趋势。
2026-01-03 20:56:10
929
原创 DeepSeek新工作mHC:一个优化版的残差连接结构
前天,DeepSeek发布了一篇新的工作[1]。标题是:mHC: Manifold-Constrained Hyper-Connections翻译一下:mHC:流形约束的超连接这篇工作是一个阶段性的研究成果,而不是模型更迭。原文的数学性很强,本文主要从更容易理解的宏观层面,看看它在做什么。
2026-01-03 20:55:34
412
原创 FreeTool增加了四个新工具,并新增国内镜像站点
FreeTool是一个集各项实用功能于一体的工具站,近期更新中,增加了四个实用工具,并优化了侧边栏的交互体验。FreeTool访问地址:https://xdxsb.top/FreeTool与此同时,在国内服务器上部署了镜像站点,国内用户可访问以下网址,彻底解决上不去、加载慢的问题。国内镜像站网址:https://tool.zstar.website。
2025-12-31 22:38:47
394
原创 2025年终总结:和AI一起进化的一年
又到了一年年末,按照惯例对2025这一年进行总结。在写这篇文章前,看了一眼去年在此时写的。。。心态上的转变,很大程度上是得益于AI工具的进化。回看去年年末,DeepSeek尚未出圈,Cursor正在积累原始用户,豆包还在牙牙学语,国内还在讨论文心一言和通义千问谁才是更好的ChatGPT平替。而在今年年末,AI已然发生了天翻地覆的变化,我的日常AI工具,也换了好几番。。Github上的活跃图很好地浓缩了我这一年的发展,下面我将结合这一年做的各种项目,来回顾一下具体是如何和AI一同进化的。
2025-12-31 20:46:16
1860
原创 Claude Code + MiMo-V2-Flash,实际体验如何
从实际体验来看,让 MiMo-V2-Flash 去做偏复杂的代码编写任务,还有挑战。并且,感觉它的训练数据很不平衡,在没有语言限定的情况下,基本都会采用Python。鉴于 MiMo-V2-Flash 限时免费和速度快的特性,在简单编码任务和实时文本翻译等领域,目测存在用武之地。
2025-12-25 11:07:14
1304
原创 小米的MiMo-V2-Flash,谷歌味挺浓
小米的风格是这样:当别人做得火热时,它先开始观望,等大家把路线探得差不多之后,它开始下场超车了。手机是如此,汽车是如此,MiMo亦是如此。总体来看,它不像是DeepSeek,能整新鲜的想法,它更多是把人家已经比较成熟的想法拼装起来。拼装的技术也是技术,就像是开源方案那么多,能整合用好,解决问题的仍然不多。MiMo-V2-Flash 一下子成绩追上来,速度还极快,确实有点超乎预期。这个模型当前仅支持文本输入,按照它的风格,下一步估计是扩展规模或者加入多模态,可以起名为 MiMo-V2-Pro了。
2025-12-22 23:30:43
1527
1
原创 FreeTool新功能汇总和访问速度优化
FreeTool 网站自上线以来,总用户数已突破4k,平均每日有超过200人访问。FreeTool是一个集各项实用功能于一体的工具站,除前文提到的一些功能外,目前增加了一系列新功能,并对网站的访问速度进行了一系列优化。FreeTool访问地址:https://xdxsb.top/FreeTool。
2025-12-17 01:25:08
884
原创 Open-AutoGLM:让普通手机秒变豆包手机
体验下来,这种Agent手机能够免除很多重复性的步骤,但有一点是很难达到的,那就是人的感受。以点外卖这个场景为例,我告诉他:“我想点一个猪肝炒饭”,它会智能打开外卖平台,搜索类目,选择距离近且评分高的店铺,点击品类,最终让人来确认支付。但是,如果我自己点外卖,我可能会在打开外卖平台的时候,看到新开的推荐店铺,亦或者在打开店铺的时候,看到了新品,然后就改变想法,想试试新品。这一点,AI很难做到,AI只是严格遵循用户的命令,不达目的不罢休。达到终点固然很好,但丧失了沿途的风景,这是否值得呢?
2025-12-14 13:33:15
2264
4
原创 使用gsplat进行3D高斯泼溅的方案
gsplat 不是一个软件,而是一个深度优化CUDA的开源Python库。它的作者是 Nerfstudio 团队,这个团队最出名的项目是 Nerfstudio,是对 NeRFs 方法支持最好的一套框架。据其所述,出于对新一代技术的好奇,他们构建了 gsplat 这个库。它支持 Windows/Linux 两个系统,使用前必须准备好 Nvidia 显卡。跑这个项目真是特别费劲,官方的文档支持不够完善,以至于遇到问题,开发者们都只能在issue区里抱团取暖。
2025-12-10 20:11:37
1586
原创 ntfy:一个向手机推送信息的开源方案
昨天在Github热门榜上看到一个挺有趣的项目ntfy[1]。这个项目采用Go语言构建了一套基于HTTP的信息推送系统,设计得非常简洁且易于拓展。
2025-12-09 10:47:56
809
原创 CUDA简介与13.1版本更新内容总结
CUDA是 Nvidia 开发的一套并行计算平台,它允许开发者利用 Nvidia 的 GPU 来执行通用计算任务,而不仅仅是图形渲染。工具链:包括 NVCC 编译器、Nsight 调试器和性能分析工具等优化库:提供高性能的线性代数库(cuBLAS)、深度学习库(cuDNN)、稀疏矩阵库(cuSPARSE)等运行时环境:负责管理 GPU 资源、内存分配和任务调度要理解 CUDA 的工作原理,需要先了解 GPU 的硬件架构基础。GPU 和 CPU 的设计目标不同。
2025-12-07 22:59:21
1985
数据集spacenet/AICrowd/CHN6-CUG/deepglobe-road-dataset/Massachuset
2022-07-07
苹果科技官网前端界面(纯H5/CSS/Javascript)
2022-06-13
Android:简单登录注册Demo
2022-06-13
【Android】husbandry项目工程文件
2022-06-13
雾霾定位探测系统(App)
2022-05-11
MLP/LeNet/AlexNet/GoogLeNet/ResNet在三个不同数据集上的分类效果实践
2022-05-02
雪堆博弈-最小节点覆盖问题程序与文档
2022-05-02
医学数据库MIMIC-III v1.4
2022-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅