- 博客(151)
- 资源 (1)
- 收藏
- 关注
原创 强化学习——PPO、DPO、GRPO的原理推导
然后进行训练就是不断更新网络,然后采集数据,这种更新策略叫On Policy,采集数据的Policy和我们训练的Policy是一个,这样的方式存在一个问题就是采集数据时间太久了。的正负会影响整个世子的正负,也就是说在好的情况下,无论做什么动作,所有的Reward都是正,那么算法就会增加所有动作的概率,Reward大的动作概率会增加的大一些。每次都是一次随机采样,方差大,训练很不稳定,一次随机采样可能出现同一个动作,得到的Reward却天差地别,所以需要无限多次的采样,才能得到相对准确的Reward。
2025-12-13 19:23:13
901
原创 Qwen3-8B大模型微调实战
Unsloth 是一个专门为 Llama 3.3、Mistral、Phi-4、Qwen 2.5 和 Gemma 等模型设计的微调加速框架。该项目由 Daniel Han 和 Michael Han 领导的团队开发,旨在为开发者提供一个高效、低内存的微调解决方案。
2025-12-06 12:45:03
778
原创 JAVA爬虫实战项目——OKX解析
【【狂神说Java】Jsoup爬虫入门实战】这一视频教程,进行学习的,在这里记录一下自己的学习经验和问题解答,以供后续复盘回看。页面下载链接提取URL管理内容抽取及持久化通用爬虫:宽度遍历,对网页进行无差别的进行抓取,但是效率不高,因为是爬取的网页上的所有内容垂直型爬虫:关注内容与准确率,仅仅抓取到有效信息的数据例如webmagic。
2025-09-30 16:25:45
731
原创 Stanford CS336 assignment1(上)
斯坦福CS336课程作业一上半部分,实现BPE编码器,嵌入层,Transformer的Block块等
2025-09-26 16:06:51
807
原创 Standford CS336(二)训练模型介绍
使用和nn.Module构建简单的深度线性模型。# 辅助函数,用于获取设备 (CPU 或 GPU)# 简单的线性层# 使用 Xavier 风格初始化权重# 深度线性模型# 使用 ModuleList 存储多个线性层])self.final = Linear(dim, 1) # 最终输出层# 应用线性层# 应用最终输出层# 移除最后一个维度,使其变为 (B,)return x# 实例化模型并检查参数数量D = 64 # 维度# 检查模型参数。
2025-08-30 10:32:21
1010
原创 Standford CS336(一)课程介绍
斯坦福CS336课程(2025春季)聚焦"从零构建语言模型",针对当前AI研究领域出现的"技术脱节"现象,强调通过实践深入理解模型机制。课程揭示了语言模型工业化面临的挑战:GPT-4等前沿模型需1.8万亿参数和1亿美元训练成本,且核心细节不公开。课程提出"多即不同"原则,指出小型与大型模型存在本质差异,重点培养三种能力:模型机制理解、硬件优化思维和建模直觉。通过梳理语言模型发展历程,从早期统计方法到Transformer架构演进,课程旨在帮助学生掌
2025-08-21 10:29:19
1146
原创 【文献阅读】Collective Decision for Open Set Recognition
在开集识别(OSR)中,几乎所有现有的方法都是专门为识别单个实例而设计的,即使这些实例是集体地成批出现的。识别者在决策中要么拒绝它们,要么使用经验设定的阈值将它们归类到某个已知的类。因此,决策阈值起着关键作用。然而,其选择往往依赖于已知类的知识,不可避免地会因缺乏未知类的可用信息而带来风险。另一方面,一个更现实的OSR系统不应该仅仅依赖于拒绝决策,而应该更进一步,特别是在发现拒绝实例中隐藏的未知类方面,而现有的OSR方法没有特别注意。
2025-03-02 13:20:29
1021
原创 【文献阅读】Multi-Task Based Deep Learning Approach for OpenSet Wireless Signal Identification in ISM Band
无线信号识别对于有效地实现频谱监测和管理具有重要作用。然而,在ISM(Industrial,Science and Medical,工业、科学和医疗)频段,由于各种新兴无线技术的异构性,部分潜在的未知频谱占用者甚至会阻碍无线信号识别的可行性,因此无线信号识别成为一项具有挑战性的任务。为了克服这些困难,本文以开集识别(OSR)为研究对象,提出了一种基于深度神经网络的多任务学习结构,用于识别已知和未知光谱占用者。提出了一种新的反事实GAN(CountGAN)结构化扩展。
2025-02-27 16:03:25
788
原创 【文献阅读】RD-OpenMax: Rethinking OpenMax for Robust Realistic Open-Set Recognition
近年来,面向开放世界环境的开放集识别(OSR)技术越来越受到关注.然而,现有的OSR设置要么过于理想化,要么只关注长尾分布、少镜头采样等特定场景,无法捕捉到真实场景的复杂性。在本文中,我们提出了一个现实的OSR(ROSR)设置,它涵盖了各种各样的挑战性和真实世界的场景,包括具有强语义相关性和大量物种的细粒度案例、少量样本、长尾样本分布、动态输入(例如,图像、空间-时间和多模式信号)和跨域自适应。特别地,我们重新思考了ROSR环境中简单而基本的OpenMax,并引入了一种新的方法–正则化判别OpenMax。
2025-02-23 11:29:33
1192
原创 c++在线音乐播放器项目开发记录(2)
因为放寒假了,时间比较短,想找实习也不好找,干脆在家加强一下技术栈,首先从c++学起,最适合练手的就是qt的项目了,我是根据B站视频来进行学习的,这篇文章主要是记录一下在跟视频做的过程中,自己的学习体会和问题的解决思路。
2025-01-31 22:13:30
817
原创 c++在线音乐播放器项目开发记录(1)
因为放寒假了,时间比较短,想找实习也不好找,干脆在家加强一下技术栈,首先从c++学起,最适合练手的就是qt的项目了,我是根据B站视频【5个C/C++硬核简历项目实战,可直接写入简历,包含:Qt项目、音视频流媒体开发、后端开发、DPDK网络编程、KV存储、Linux内核。总有一个实战项目适合你!来进行学习的,这篇文章主要是记录一下在跟视频做的过程中,自己的学习体会和问题的解决思路。
2025-01-24 19:44:46
1001
原创 Selenium使用过程中出现Exception in thread “main“ org.openqa.selenium.SessionNotCreatedException: Could not
在启动Selenium过程中出现了一大串报错,检查了chrome的版本也对的上,和Selenium的版本也对的上,我的代码如下得到报错。
2025-01-11 10:44:15
1268
原创 【文献阅读】Radar HRRP Open Set Recognition Based on Extreme Value Distribution
高分辨距离像雷达表示目标散射中心沿着雷达视线的一维分布,包含了目标的几何结构信息。与二维合成孔径雷达(SAR)和逆SAR数据相比,高分辨距离像(HRRP)更容易获取和处理,因此基于HRRP的雷达自动目标识别(RATR)近年来逐渐受到人们的关注。
2024-12-20 21:30:39
1600
原创 【项目介绍】基于机器学习的低空小、微无人机识别技术
对于现代雷达探测系统而言,无人机和飞鸟同属于低空小、微特征的一类典型目标,而面对比较复杂的环境,如何有效区分两者类型并完成识别是当下急迫且重要的难题。常规方法是从目标的微动特征差异进行区分,但由于两者回波微弱,很难通过时频分析方法提取目标特征。针对无人机与鸟类轨迹的特性差异,我们设计了多维特征提取方法,包括轨迹角度变化、航向角振荡、速度分布等物理量,为分类模型提供了充分的信息支持。我们采用了多种主流机器学习算法的组合,通过Stacking集成学习方法,有效提升了模型的预测能力和泛化性能。
2024-12-18 15:30:22
3012
1
原创 【文献阅读】Towards Open Set Deep Networks(OpenMax方法)
深度网络已经为各种视觉识别问题带来了显著的收益,导致了高影响力的学术和商业应用。最近在深度网络中的研究强调,很容易生成人类永远不会分类为特定对象类别的图像,但网络对这些图像的分类具有很高的置信度,因为给定的类别-深度网络很容易被人类认为没有意义的图像愚弄。深度网络的闭集性质迫使它们从导致此类工件的已知类别中选择一个。真实的世界中的识别是开集的,即识别系统应该在测试时拒绝未知的/看不见的类。我们提出了一种方法,通过引入一个新的模型层OpenMax来适应开集识别的深度网络,该模型层估计输入来自未知类的概率。
2024-12-17 16:58:52
1288
原创 【文献阅读】A Survey on Open Set Recognition
开放集识别(OSR)是关于处理模型在训练过程中没有学习到的未知情况。本文综述了OSR的研究现状,并分析了它们各自的优缺点,以期对新的研究者有所帮助。OSR模型的分类提供了沿着广泛的总结最近的进展。分析了OSR与多类分类、新奇检测等相关任务之间的关系。它的结论是,OSR可以适当地处理未知的情况下,在现实世界中捕捉所有可能的类的训练数据是不切实际的。最后,突出了OSR的应用,并为未来的研究课题提出了一些新的方向。
2024-12-05 11:13:19
1508
原创 Linux应用层学习——Day4(进程处理)
Makefile在执行程序后,在另一个终端输入ps -ef然后查看进程的运行情况这里看到执行的system_test是109063 创建的子进程 109064 其后面那个序号写的是父进程是109063。
2024-12-02 21:17:54
893
原创 【文献阅读】LPI Radar Signals Modulation Recognition in Complex Multipath Environment Based on Improved
低截获概率(LPI)雷达由于难以被非合作拦截机截获,在现代雷达系统中发挥着重要作用。低截获概率雷达信号的调制方式日趋复杂,给复杂电磁环境下雷达信号的准确识别带来了一定的困难。针对这一问题,提出了一种复杂多径电磁环境下低截获概率雷达调制信号的自动识别框架。.实验结果表明,与现有的雷达信号自动调制识别(AMR)方法相比,该框架在复杂电磁环境下具有更高的识别精度,并且对多径叠加效应具有较强的鲁棒性。当信噪比低至-12dB时,对10种典型的低截获概率雷达信号的平均识别率达到96.75%
2024-11-16 22:14:04
1473
2
原创 Linux应用层学习——Day2(文件IO)
Makefile的作用是把gcc变成变量CC,这样后面改只需要改一个CC$@是目标文件的名称,就是fopen_test$^代表所用依赖名,就是fopen_test.c、-./$@执行文件-rm ./$@删除文件把读取模式换成写模式后,执行。
2024-11-15 17:07:39
318
原创 【文献阅读】The Importance of Expert Knowledge for AutomaticModulation Open Set Recognition
自动调制分类(AMC)是通信系统监测、管理和控制的重要技术。近年来,机器学习方法正在变得流行,以提高AMC对无线电信号的有效性。==然而,针对已知调制类型和未知调制信号的自动调制开集识别(AMOSR)方法还没有得到很好的研究。为此,本文提出了一种新的多模态射频信号边缘原型框架(MMPRF),以提高AMOSR的性能。==首先,MMPRF通过对特征空间进行相对划分和边缘约束,解决了同时识别闭集和开集的问题。其次,利用无线信号领域的知识,提取一系列与信号相关的特征来增强AMOSR的性能。此外,本文提出了一种基于G
2024-11-13 20:42:39
902
原创 Linux应用层学习——Day1(Makefile)
Makefile 是一种编程领域的脚本文件,它定义了一系列的规则来指定哪些文件需要先编译,哪些文件需要后编译,以及哪些文件在文件更新后需要重新编译。Makefile 类似于 Shell 脚本,可以执行操作系统的命令,从而实现自动化编译和构建工程的目的。
2024-11-12 17:59:15
418
原创 基于RetinaFace+Jetson Nano的智能门锁系统——第四篇(完整项目)
智能门锁的工作逻辑如图2.3所示,系统是由JetsonNano作为主控芯片,PyQt5界面作为用户端窗口,系统启动后,为用户展示登录界面,用户在登录后,可以进行检测视频、检测照片、人脸编码、录入人脸的功能,启动程序后,选择检测视频模式,程序调用Retinaface和FaceNet开始实时对人脸进行检测,当检测到的人脸信息与在数据库中的人脸信息匹配后,把检测结果到Esp8266,假如Esp8266收到了身份确认的消息,则开门。因此,在门锁系统中引入人脸识别技术,是一项很有实用价值的研究课题。
2024-11-12 10:50:42
1514
原创 Ubuntu报错python3-distutils : Depends: xxx but xxx is to be installed Depends:xxxbut it is not go
在安装python的时候,跟教程就跟着一个走,要不然会乱七八糟,安装许多别的python,还有一个是,遇到报错可以先去网上查,但是更重要的是自己看怎么解决,因为每个包不一样,解决方案肯定就不一样,要提升自己解决问题的能力才是硬道理。
2024-11-11 10:06:38
2907
原创 【文献阅读】Energy Detection using Estimated Noise Variance for Spectrum Sensing in Cognitive Radio Networ
针对上述问题,本文提出了一种基于能量检测的频谱感知算法并对其性能进行了分析,我们并不假定精确的噪声方差是先验已知的。相反,使用估计的噪声方差来计算在基于能量检测的频谱感测中使用的阈值。==本文提出了一种新的能量检测统计性能分析模型。我们提出了该模型的一些特性,并分析了这些特性对频谱感知性能的影响。==通过典型算例与数值模拟进行对比,验证了所提出模型的正确性和有效性。通过这些例子,我们展示了我们的分析模型的有效性:我们可以使用它来设置合适的阈值,从而促进更多的频谱共享,特别是当与合作频谱感知方法结合时。
2024-11-08 13:28:29
883
原创 【文献阅读】Experimental Study of Spectrum Sensing based on Energy Detection and Network Cooperation
频谱感知已被确定为一个关键的使能功能,以确保认知无线电不会干扰主用户,通过检测主用户信号。最近的研究通过建模和仿真研究了使用能量检测和网络协作的频谱感知。然而,缺乏实验研究表明,这种方法的可行性和实际性能限制下的真实的噪声和干扰源的无线信道。==在这项工作中,我们在无线测试平台上实现了能量检测器,并测量了在低SNR状态下实现调制和正弦波导频信号的检测和虚警概率所需的感知时间。==我们测量了由接收机噪声不确定性设置的最小可检测信号电平。
2024-11-07 16:10:37
772
原创 【论文介绍】Multiple Task Resource Allocation Considering QoS in Energy Harvesting Systems 能量收集系统多任务资源分配
日益丰富的智能设备和第五代移动通信技术(5G)的发展,促使着物联网(Internet of Things, IoT)技术蓬勃发展,能量采集(Energy Harvesting, EH)进一步增强了有限能源支持的物联网设备的运行能力。然而,许多研究表明,使用EH的物联网设备可能会经历能量不确定性和不可预测性,使基于EH的物联网网络设计复杂化。本文主要讨论了在考虑能量可用性、电池容量有限等实际限制的情况下,以最大化吞吐量为目标的物联网设备离线资源分配问题。本文的方法设计为离线方法,并提供了理论上的最优解。
2024-10-28 08:32:32
724
原创 【文献阅读】DeepSIG_A_Hybrid_Heterogeneous_Deep_Learning_Framework_for_Radio_Signal_Classification
阅读DeepSIG文献
2024-05-23 23:38:30
1742
原创 【文献阅读】JointChargingSchedulingandComputationOffloadinginEV-AssistedEdgeComputingASafeDRLApproach
问题:作者阐述的基本问题就是在电动交通工具的边缘计算中,怎么去分配充电量,怎么去分配计算任务。解决方案:为了解决这一问题,文章提出了joint charging schelduling和computation offloading scheme(简称OCEAN)。文章将这一问题拆解成了两个问题,对于charging schelduling,研发了一种深度强化算法(DRL),对于computation offloading,为了得到最优的卸载策略,文章把他作为重新规划为整数非线性规划问题。
2024-05-23 17:55:01
729
原创 【文献阅读】ImageNet Classification with Deep Convolutional Networks
阅读CNN经典论文
2024-05-23 09:45:09
1011
原创 【文献阅读】 The ITS Irregular Terrain Model(Longely-Rice模型)海上电波传播模型
Longely-Rice模型文献阅读
2024-05-03 15:50:47
2376
1
原创 如何解决E: Package ‘oracle-java8-installer‘ has no installation candidate
【代码】如何解决E: Package ‘oracle-java8-installer‘ has no installation candidate。
2024-04-17 17:20:36
293
原创 基于RetinaFace+Jetson Nano的智能门锁系统——第三篇(安装Archiconda)
在Jetson Nano环境下安装Archiconda
2024-04-17 16:55:59
1174
考研数学函数强化部分思维导图
2023-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅