自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(269)
  • 收藏
  • 关注

原创 【一天一个知识点】公有云(Public Cloud)

摘要:公有云是由第三方服务商提供的云计算部署模式,具备多租户共享、按需付费等特点。其核心特点包括低成本、弹性扩展、免维护和高安全性,提供IaaS、PaaS、SaaS三层服务模式。关键技术涵盖虚拟化、容器化、分布式存储和SDN网络等,适用于初创企业、在线教育等多种场景。主流厂商有AWS、阿里云、华为云等。建议学习者从基础云服务操作入手,逐步掌握云原生技术,考取相关认证证书。

2025-06-12 10:00:00 595

原创 【云计算】当前云计算领域的就业形势和相关岗位情况

2025年云计算就业形势分析显示,行业需求持续增长,岗位向多技能复合型转变,但面临入门门槛高、技能更新快等挑战。典型岗位包括云平台运维、云原生开发、DevOps等,年薪从10万至50万不等。建议从业者掌握Linux、Docker等基础技能,考取阿里云ACP、华为HCIA等认证,积累实战经验和项目案例。传统行业上云和中小SaaS企业对云计算人才需求旺盛,高校学生可通过实训、竞赛和实习提升竞争力。

2025-06-12 08:00:00 466

原创 【一天一个知识点】云计算(Cloud Computing)

云计算(Cloud Computing)是一种基于互联网的计算服务方式,它将计算资源(如服务器、存储、数据库、网络、软件等)通过网络提供给用户,用户可以按需获取和使用这些资源,而无需自行购买和维护硬件设备。

2025-06-11 11:51:51 474

原创 【每天一个知识点】BP神经网络

BP神经网络是由Rumelhart和McClelland于1986年提出的一种多层前馈神经网络,采用误差反向传播算法(Backpropagation)进行训练,广泛用于非线性映射、函数逼近、模式识别与分类预测等任务,是神经网络技术中最具代表性的一种模型。BP网络也是现代深度学习模型(如DNN、CNN等)的基础,是许多复杂网络架构的原型。BP神经网络是现代人工智能发展的基石,它从结构上实现了多层感知机的学习能力,从算法上推动了梯度下降与反向传播技术的普及。

2025-06-04 11:04:38 671

原创 【每天一个知识点】LangChain

摘要:LangChain是一个由大语言模型驱动的智能应用开发框架,支持构建问答系统、智能体等复杂任务。其核心模块包括提示词模板、模型封装、流程串联、工具调用等,支持Python和JS开发。典型应用场景包括文档问答系统、多工具智能体及任务编排,通过组合不同模块实现RAG、多步骤推理等功能。LangChain将大语言模型作为控制中枢,实现工具调用、思维链推理等特性,为开发智能应用提供高效解决方案。

2025-05-28 21:14:19 539

原创 【每天一个知识点】智能体(Agent)”与“思维链(Chain of Thought, CoT)

摘要:智能体(Agent)与思维链(Chain of Thought, CoT)是AI领域的核心概念。智能体作为自主系统,具备感知、决策与行动能力,可分为反应型、目标驱动型等类别;思维链则通过显式推理步骤增强大模型的复杂问题解决能力。两者结合可提升智能体的可解释性与任务执行效率,典型应用包括AutoGPT的自动化任务和LangGraph的多智能体协作。未来趋势聚焦于数据分析、教育答疑等场景,通过多步推理与代码辅助实现更智能的服务。

2025-05-27 17:21:44 494

原创 【每天一个知识点】什么是“辨别式人工智能”?

辨别式AI擅长分类和识别,如判断图片是猫还是狗、识别垃圾邮件等。它通过建立分界线对输入信息进行分类,常用于图像识别、情绪分析等场景。与生成式AI不同,辨别式AI不创造内容,而是输出判断结果。两者各司其职,在智能系统中常协同工作。

2025-05-26 07:30:00 423

原创 【每天一个知识点】计算思维

计算思维是一种分析问题和设计解决方案的思维方式,强调条理清晰、逻辑缜密地处理复杂问题。它包括四个核心要素:分解(将大问题拆解为小问题)、模式识别(发现重复规律)、抽象(提取问题本质)和算法设计(制定解决步骤)。这种思维方式不仅适用于编程领域,也能应用于日常生活和学习工作,如烹饪、写论文或做PPT等场景。掌握计算思维能帮助我们更高效地分析问题、理清逻辑,使复杂任务变得有章可循。

2025-05-25 15:18:36 917

原创 【人工智能】生成式AI,真的能帮我们做很多事!

生成式人工智能(像ChatGPT、Copilot、文心一言、通义千问这些)越来越火了。不光能聊天,它还能帮我们写文章、做表格、做PPT,几乎成了我们的“学习搭子”“办公外援”“文案神器”。

2025-05-25 10:12:55 908

原创 【每天一个知识点】“数字人”(Digital Human)

数字人是结合计算机图形学、AI等技术构建的虚拟人物,分为2D/3D/超写实形态和真人/AI/混合驱动方式。其核心技术包括动作捕捉、语音合成等,应用于虚拟主播、企业服务、教育等领域。优势在于可持续服务、形象可控,但面临情感表达有限、技术成本高等挑战。典型案例包括百度度晓晓、央视AI主播等。数字人发展潜力大,但也需解决伦理和版权问题。

2025-05-24 14:49:07 876

原创 【论文阅读】scSAMAC: saliency-adjusted masking induced attention contrastive learning for single-cell clus

本文提出了scSAMAC方法,用于改进单细胞RNA测序数据的聚类性能。该方法通过结合对比学习与负二项分布损失函数的变分自编码器框架,有效解决了单细胞数据高维度、稀疏性和噪声问题。scSAMAC的创新点包括:1)基于基因表达差异的显著性调整掩码模块,生成具有判别力的负样本;2)融合Wasserstein距离与软K均值的新型聚类损失函数;3)潜变量层的多头注意力机制,增强特征相关性学习。实验结果表明,该方法在聚类性能上优于现有技术。该研究为单细胞数据分析提供了更鲁棒且高效的解决方案。

2025-05-23 22:49:04 1282 1

原创 【无标题】从表达矩阵构建 GFM、扩展模块并做功能富集分析的 Python 流程

Tissue: Brain / Liver / Tissue-agnostic(任选)粘贴你提取的核心子图基因(如 core gene list)访问 “Gene Set Analysis” 页面。Interaction Graph(可视化)Gene Modules(功能模块)Enrichment(功能富集),如过多建议分批上传。

2025-05-23 07:30:00 419

原创 【生物信息】Gene Functional Module (GFM) Identification(基因功能模块识别)

Gene Functional Module(GFM)是由在生物功能上相关联的一组基因组成的集合,这些基因通常在同一信号通路、细胞过程或组织中共同表达或协同调控。GFM的识别流程包括输入基因集或表达矩阵、选择组织或条件背景、构建或利用基因互作网络、应用模块识别算法(如社区检测、聚类分析、图分解等),以及进行功能富集与注释。HumanBase平台提供在线模块识别服务,用户可以通过粘贴基因列表并选择组织来识别GFM,结果包括模块数量、基因组成、GO注释与交互网络等。GFM识别在单细胞聚类特征构建、疾病机制研究、

2025-05-22 10:30:00 598

原创 【每天一个知识点】HumanBase

HumanBase是一个由哈佛大学Broad Institute与Greene Lab等合作开发的公共数据库与分析平台,专注于识别和注释人类基因的组织特异性功能模块(Gene Functional Modules, GFM)。该平台整合了多组学数据、网络分析和机器学习技术,提供基因功能预测、网络可视化和功能富集分析等服务。HumanBase支持100多种人类组织和细胞类型,能够预测基因在不同组织中的功能角色,并识别与特定基因集合相关的功能模块。用户可以通过上传基因列表,获取显著的功能模块、功能富集结果和网络

2025-05-22 07:00:00 939

原创 【论文阅读】scMUG: deep clustering analysis of single-cell RNA-seqdata on multiple gene functional modules

单细胞RNA测序(scRNA-seq)技术通过提供单个细胞层面的基因表达数据,极大地增强了对细胞异质性的理解。然而,scRNA-seq数据的稀疏性和高维度特征给分析带来了挑战。为此,我们提出了scMUG计算流程,该流程整合了基因功能模块信息,以提升scRNA-seq数据的聚类分析能力。scMUG流程包括数据预处理、细胞表示生成、细胞间相似矩阵构建及聚类分析,并引入了一种新的相似度度量方法,结合了局部密度与全局分布。通过对九个人类scRNA-seq数据集的评估,scMUG在揭示基因表达模式与细胞异质性之间的功

2025-05-21 22:27:32 1306 1

原创 【每天一个知识点】降维方法

降维是数据预处理中的关键步骤,主要用于数据可视化、噪声减少、计算加速和降低过拟合风险。常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)、t-SNE和UMAP。PCA是一种

2025-05-21 13:27:50 684

原创 【数据集】乳腺癌数据集的基础分析与可视化

本文介绍了Breast Cancer Wisconsin数据集的初步分析过程。该数据集包含569条样本,30个数值型特征,目标分类为恶性肿瘤(0)和良性肿瘤(1)。通过加载数据并查看基本信息,发现良性样本较多。进一步分析目标变量分布、特征统计信息及特征间的相关性,发现多个特征之间存在高度相关性。通过箱线图展示主要特征与目标变量的关系,发现恶性肿瘤在多个维度上数值更大,分布差异明显。最后,通过PCA降维可视化,发现恶性和良性样本在二维分布图中大致可分,表明该数据集具有良好的分类边界。总结指出,该数据集特征相关

2025-05-21 11:49:59 521

原创 【每天一个知识点】embedding与representation

在机器学习和自然语言处理等领域,"Representation(表示)"和"Embedding(嵌入)"是两个密切相关但有所区别的概念。表示是将现实世界对象转换为机器可处理的数学形式,如向量或张量,可以是稀疏的(如one-hot编码)或稠密的,可以是手工设计的(如TF-IDF)或学习得到的(如BERT提取的句向量)。嵌入是表示的一种,特指通过模型学习从高维稀疏空间转换到低维稠密空间的向量表示,如Word2Vec生成的词向量或Node2Vec生成的节点嵌入。简而言之,所

2025-05-19 23:59:22 370

原创 构建一个“湖仓一体”(Data Lakehouse)系统

构建“湖仓一体”系统的核心在于融合数据湖的灵活性与数据仓库的高性能分析能力。系统通常采用四层架构:数据接入层、存储层、计算层和服务层。关键步骤包括:数据采集与接入(如Kafka、Flink)、数据存储与治理(如HDFS、S3、DeltaLake)、计算与分析(如Spark、Flink)、服务与可视化(如Tableau、Superset)。系统需支持ACID事务、统一元数据管理、数据冷热分层和多引擎并存。推荐使用开源工具如Hudi、Iceberg、Trino等,部署方案可基于Kubernetes或Docker

2025-05-18 20:43:16 1316

原创 【每天一个知识点】湖仓一体(Data Lakehouse)

“湖仓一体”(DataLakehouse)是一种结合了数据湖和数据仓库优势的新型数据架构,旨在解决传统数据架构中数据孤岛、高成本和低效率的问题。它支持多类型数据的统一存储,并提供了高效的数据查询与治理能力。湖仓一体的核心优势包括统一存储、灵活的数据建模、支持多种计算与查询引擎、增强的数据治理能力、大规模高性能分析以及更优的成本效益。与传统数据湖和数据仓库相比,湖仓一体在数据类型支持、存储成本、分析性能、数据治理和架构复杂度等方面展现出显著优势。典型的技术生态包括开源和商业的存储引擎、计算引擎、元数据管理和数

2025-05-18 20:38:46 898

原创 【每天一个知识点】意图传播(Intent Propagation)

本文探讨了在人工智能和自然语言处理(NLP)领域中,意图传播(Intent Propagation)作为提升智能系统上下文一致性和多轮交互理解的关键技术。意图传播不仅涉及对用户单一语句的理解,还包括在多轮对话和跨模块任务中意图的动态迁移和共享。文章详细分析了意图传播的定义、实现机制、在多轮对话系统中的作用、关键技术路径以及未来发展趋势。通过序列建模、上下文意图向量、意图图谱和跨模块传播机制等技术,意图传播在智能客服、对话系统等场景中发挥着重要作用。未来,随着预训练语言模型和多模态模型的发展,意图传播将更加注

2025-05-16 23:31:30 872

原创 【论文阅读】Towards multi-fusion graph neural network for single-cell RNA sequence clustering

本文提出了一种新的单细胞RNA测序(scRNA-seq)聚类方法——单细胞多融合图神经网络(scMFGNN),以解决现有方法在处理scRNA-seq数据时的两个主要局限:一是未能充分考虑节点属性与拓扑信息在可靠性上的差异,二是缺乏融合多尺度判别信息的能力。scMFGNN通过引入多融合图神经网络(MFGNN)和零膨胀负二项分布(ZINB)模块,动态融合多尺度表示,并自适应地整合节点表示与拓扑结构信息,从而提升聚类性能。实验结果表明,scMFGNN在多个scRNA-seq数据集上优于现有主流方法,验证了其在处理

2025-05-16 20:48:19 1204 1

原创 【每天一个知识点】模型的鲁棒性

模型鲁棒性是人工智能、机器学习和数据分析领域中的关键指标,衡量模型在非理想条件下保持稳定性能的能力。鲁棒性体现在模型对数据扰动、输入噪声、异常样本、分布漂移或对抗攻击等外部干扰的抵抗能力。随着AI技术在医疗、金融、工业等关键领域的广泛应用,对模型鲁棒性的要求日益提高。鲁棒性可从数据层面、模型结构层面和泛化能力层面进行分析,其重要性在于确保模型在实际应用中的可靠性和安全性。提升模型鲁棒性的方法包括数据增强、正则化方法、鲁棒损失函数设计、对抗训练、模型结构优化和不确定性建模。评估模型鲁棒性需综合测试,包括噪声数

2025-05-15 23:25:06 902

原创 【每天一个知识点】模型轻量化(Model Compression and Acceleration)技术

模型轻量化作为AI部署的关键技术,不仅提升了算法在各行业中的实用性,也推动了从“云端智能”向“端侧智能”的演进。在未来,随着大模型与嵌入式计算的融合发展,多策略协同(如剪枝+蒸馏+量化)、硬件感知优化与跨模态轻量网络设计将成为核心研究方向。

2025-05-14 15:58:09 900

原创 【每天一个知识点】Dip 检验(Dip test)

Dip检验(Diptest)是一种非参数统计方法,由Hartigan和Hartigan于1985年提出,用于检验一维数据分布是否为单峰。其核心思想是通过计算样本分布与最接近单峰分布之间的最大偏差(Dip值)来判断数据的单峰性。Dip值越小,数据越接近单峰;Dip值越大,可能为多模态分布。检验步骤包括计算经验分布函数、拟合单峰分布、计算Dip值及通过重抽样获得p值。若p值小于显著性水平(如0.05),则拒绝单峰假设。Dip检验广泛应用于聚类分析、异常检测、密度估计评估及降维验证等场景。其优点在于无需假设分布类

2025-05-13 20:51:02 469

原创 【论文阅读】Dip-based Deep Embedded Clustering with k-Estimation

本文提出了一种新颖的深度聚类算法DipDECK,该算法结合了自编码器和Dip检验,能够在优化聚类目标的同时自动估计聚类数量,且不依赖于传统的球形分布假设。DipDECK通过在嵌入空间中高估聚类数,并利用Dip检验识别结构相似的聚类进行合并,从而实现对复杂数据集的灵活聚类。实验结果表明,DipDECK在聚类效果、参数不敏感性和聚类数量估计方面均优于现有方法,为处理高维大数据提供了一种有效的解决方案。

2025-05-13 20:10:53 1972 1

原创 【每天一个知识点】关联规则强度度量

支持度表示某个项集在整个数据集中出现的频率。

2025-05-07 09:30:00 232

原创 【数据挖掘】FP-growth(Frequent Pattern Growth)算法

FP-growth(Frequent Pattern Growth)算法是一种高效挖掘频繁项集的算法,它避免了Apriori算法中繁重的候选集生成和多次数据库扫描的问题。

2025-05-07 08:00:00 503

原创 【数据挖掘】Apriori算法

频繁项集通过apriori()计算,保留支持度高的组合;关联规则通过生成,评估置信度、提升度等;可调整和控制挖掘深度。

2025-05-06 20:25:53 1175

原创 【每天一个知识点】使用 apriori() 函数获取频繁项集

基于 Python 的模块,使用apriori()函数获取频繁项集的过程主要包括以下几个步骤:当然可以,下面是使用apriori()

2025-05-06 18:17:47 639

原创 【每天一个知识点】Elsevier投稿系统参考文献无法生成的解决办法

在使用 LaTeX 提交至期刊系统(以 Elsevier 旗下期刊为例)时,即便主文件编译无误,系统仍提示参考文献缺失或无法显示。这类问题虽然属于技术层面的小坑,但确实很容易在返修阶段耽误时间或导致不必要的返工。特此记录此解决方案,供自己日后查阅,也希望能帮助到遇到类似问题的其他同仁。,并确保它们在投稿系统中与返修的.tex文件一在一样的类型下。这样可以确保审稿系统能够在后台顺利调用文献数据库并生成参考文献列表。文件所致,尤其是在未能正确识别。生成流程或缺失必要样式文件(如。若系统支持,也可以将编译好的。

2025-05-02 13:48:29 299

原创 【每天一个知识点】GPU(图形处理单元)和CPU(中央处理单元)

是计算机的“大脑”,主要负责执行操作系统和各种应用程序的指令,处理通用任务。最初设计用于图像渲染,现广泛应用于并行计算,如机器学习、科学计算等,专门处理大量相同或类似运算任务。

2025-04-29 20:22:01 371

原创 【每天一个知识点】correntropy(相关熵)

在三因子分解(NMTF)过程中,scCO₂用相关熵代替了常规的平方误差或者KL散度作为优化目标,使得模型更稳定、更准确地捕捉真实的细胞间、基因间关系。传统的距离度量(比如欧式距离、KL散度)对噪声很敏感,而相关熵能在保留数据结构的同时,减少异常点带来的影响。,能够更鲁棒地衡量两个随机变量之间的相似性,特别适合处理带有。简单说,就是“用一种非线性的方法测量相似性”,而且在。σ是核带宽参数(控制对差异的敏感程度)。这种高噪声环境下特别有效。

2025-04-27 18:49:46 339

原创 【论文阅读】Co-clustering of single-cell RNA-seq data based on weighted non-negative matrix tri-factoriza

如图1所示,提供了scCO₂的整体框架。将scRNA-seq数据集定义为 X∈Rn×s,即基因表达的计数矩阵。Xij 表示基因 i 在细胞 j 中的表达水平,且 X 中所有元素均为非负数。我们主要从R包 scRNAseq和收集了六个 scRNA-seq 数据集,列在表1中。

2025-04-27 17:42:05 1113 1

原创 【每天一个知识点】点乘(Dot Product)

在图结构重构中,点乘用于衡量节点嵌入向量之间的相似性。通过计算节点对之间的点乘,可以预测它们是否应该在图中有连接。这种方法通常与图神经网络中的嵌入学习方法相结合,帮助模型在图中自动发现潜在的连接关系。点乘在图重构中的应用,正是通过度量节点的相似性并预测边的存在。

2025-04-26 22:58:06 622

原创 我的创作纪念日

2025-04-26 22:50:16 109

原创 【每天一个知识点】IPv4(互联网协议版本4)和IPv6(互联网协议版本6)

IPv4在网络中已使用多年,但由于地址枯竭问题,IPv6逐渐成为未来的标准。IPv6解决了地址不足、安全性、路由优化等问题,能够支持更多设备的连接,特别适合物联网(IoT)等未来发展需求。两者将长期并行使用,随着IPv6部署的增加,IPv4的使用将逐步减少。

2025-04-25 23:21:27 612

原创 【每天一个知识点】熵(Entropy)

设一个离散随机变量 XX 的概率分布为 p(x)p(x),则其熵定义为:单位是 bit(比特)如果某事件越不确定(概率越小),它的信息量越大如果所有事件概率一致(最混乱),熵最大。

2025-04-24 23:42:50 643

原创 【每天一个知识点】如何解决大模型幻觉(hallucination)问题?

让模型懂得‘不知道’比假装知道更重要。——要想降低幻觉,不仅要提升知识准确度,还要让模型“知道它不知道”的边界。

2025-04-23 23:44:52 539

原创 【每天一个知识点】大模型的幻觉问题

幻觉(Hallucination)是指模型生成了看似合理但实际虚构、错误或误导性的内容。

2025-04-22 23:32:33 553

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除