- 博客(51)
- 资源 (19)
- 收藏
- 关注
原创 语义与逻辑差异-3-子树覆盖率(Subtree Coverage)
本文介绍了**子树覆盖率(Subtree Coverage)**这一衡量知识结构中概念语义层级差的核心指标。其基本原理是通过计算概念A的子树(包括自身及所有后代)被概念B子树覆盖的比例,来评估两者的语义支配范围是否对齐。文章详细阐述了形式化定义,包括单体系内的定向覆盖率和对称覆盖率,以及跨体系的计算方法,并分析了不同覆盖率水平的语义解释。子树覆盖率的优势在于捕捉结构级语义、强可解释性和非对称特性,但也存在依赖已有映射、子树大小偏置等局限。文中对比了NLTK、NetworkX等实现框架的优缺点,并提供了Wor
2026-01-15 08:28:09
920
原创 语义与逻辑差异-2-Depth Difference(层级深度差)
深度差异(Depth Difference)是衡量概念间抽象层级差异的核心指标,反映两个概念在层级结构(树/DAG/本体)中的位置差异。其基本定义为概念深度之差的绝对值,深度值越小表示概念越抽象,越大则越具体。算法实现需先构建概念层级体系,可采用最短路径、最长路径或归一化深度三种计算方式。深度差异可扩展为带方向性(区分具体/抽象)或加权(结合信息量)的形式,在概念对齐任务中尤为重要。计算流程包括加载层级体系、计算概念深度、求差值三个步骤。
2026-01-13 20:04:48
592
原创 语义与逻辑差异-1-概念层级差
概念层级差指不同认知主体对同一事物在概念抽象层级上的不一致,导致语义理解差异。概念通常呈现层级结构(如实体→具体概念→抽象概念),差异表现为抽象度、粒度或层级投影的不一致。度量方法包括层级距离、深度、隶属关系和语义覆盖度等,通过构建概念体系(如WordNet)和图遍历算法计算差异值。本质是不同个体在结构化概念体系中层级位置和语义距离的差异。
2026-01-13 08:16:27
330
原创 ChatOpenAI调用get_num_tokens_from_messages() is not presently implemented for model qwen-plus
摘要:在使用LangChain管理历史会话时,调用ChatOpenAI兼容阿里云Qwen模型出现token计数错误。问题源于非OpenAI模型缺乏内置token计算方法。解决方案包括:1)改用官方ChatTongyi集成;2)自定义基于tiktoken的计数函数(使用cl100k_base编码)。后者通过准确计算消息token数解决了警告问题,但需注意Qwen模型更倾向于上下文驱动而非严格遵循系统指令。最终方案实现了65个token的会话裁剪功能。
2026-01-12 20:40:03
743
原创 图结构差异-4-Graph Edit Distance(GED,图编辑距离)
图编辑距离(GED)是衡量两个图结构相似性的核心指标,通过计算将一个图转换为另一个图所需的最少编辑操作代价来量化差异。GED具有表达能力强、可解释性好的优点,但计算复杂度极高(NP-hard),仅适用于小规模图(节点数<20)。典型应用包括分子结构比较、图检索和生成模型评估。实际应用中需根据图规模选择算法:小图用精确算法(如python-igraph),大图采用近似方法(如GNN预测)。GED的关键挑战在于代价函数设计和计算效率优化。
2026-01-12 10:40:08
1154
原创 text-generation-webui启动报错alueError: Unknown scheme for proxy URL URL(‘socks://127.0.0.1:**/‘)
摘要:用户在运行text-generation-webui时遇到报错,显示"Unknown scheme for proxy URL"。经检查发现环境变量中包含socks代理配置(ALL_PROXY和all_proxy),而httpx库不支持socks协议。通过unset命令清除这两个代理变量后问题解决。其他http/https代理配置保持不变,程序即可正常启动。这表明某些库对代理协议有特定要求,需要根据实际情况调整代理设置。
2026-01-07 19:51:02
240
原创 图结构差异-3-路径长度分布差
路径长度分布差是衡量网络节点可达性模式差异的关键指标,通过对比两节点到其他节点的最短路径长度分布差异,反映其在网络中的拓扑角色差异。核心计算步骤包括提取节点的路径长度概率分布,并采用JS散度等度量计算差异值。该方法具有强结构感知能力和可解释性,适用于跨图对齐和异常检测等场景,但面临计算复杂度高、对大规模网络不友好的局限。典型应用包括知识图谱实体对齐、社区发现辅助和异常节点检测等,通过分析节点路径分布特征揭示网络结构特性。
2026-01-07 12:08:32
1245
原创 text-generateion-webui模型加载器(Model Loaders)选项
摘要:不同加载器是适配各类模型格式和硬件的后端优化方案。Transformers兼容性最强但显存占用高;ExLlamav2系列专为EXL2格式优化,速度最快但仅支持N卡;AutoGPTQ适配GPTQ量化模型,兼顾性能与兼容性;llama.cpp支持GGUF格式,是CPU/跨平台首选;AutoAWQ提供高质量4bit量化;TensorRT-LLM为NVIDIA生产级优化方案。选择时需权衡模型格式、硬件支持和性能需求。
2026-01-06 21:46:49
1059
原创 图结构差异-2-关系分布(Relational Distribution)
关系分布是图分析中描述节点间关联模式的概率分布,通过量化节点邻居特征或连边属性来刻画网络结构。其核心是将节点通过不同关系类型连接的频率转化为归一化概率分布,适用于知识图谱、社交网络等场景。关系分布相比邻居分布更关注连接语义而非具体节点身份,具有语义感知强、维度可控、可解释性好等优势,但也存在忽略邻居身份、依赖关系定义质量等局限。典型应用包括实体对齐、用户画像、异常检测等。实现上可通过NetworkX、DGL等框架构建,根据任务规模选择合适工具。示例代码展示了如何用NetworkX计算节点的出边关系分布。
2026-01-06 09:06:23
1035
原创 Llama2 API部署错误调试
摘要:本文记录了使用FastAPI和Uvicorn部署Llama2模型时遇到的三个主要问题及解决方案:(1)通过find命令定位缺失的accelerate_server.py文件;(2)解决TypeError错误,删除use_flash_attention_2参数;(3)修复AttributeError,删除trust_remote_code参数。此外还处理了torch_dtype过期的警告信息,将其改为dtype参数。最终成功启动API服务并处理请求,服务运行在http://0.0.0.0:8001。
2026-01-05 21:21:55
363
原创 图结构差异-1-邻域重叠率(Neighborhood Overlap)
摘要:邻域重叠率是衡量网络节点结构相似性的核心指标,通过计算节点共同邻居与全部邻居的比例(范围0-1)来量化相似程度。该指标计算简单、解释性强,适用于链接预测、社交网络分析等场景,但存在局部性限制和对稀疏图敏感等缺点。主流框架中,NetworkX原生支持该指标,igraph需手动实现,PyG则需结合其他库使用。实际应用中,邻域重叠率常作为特征用于图机器学习任务或社交网络分析。
2026-01-05 08:39:28
947
1
原创 表示/嵌入差异-7.2-间隔/边际对齐(Alignment Margin)-Circle Loss(圆损失)
Circle Loss是一种自适应度量学习损失函数,通过动态调整Margin来优化难样本。核心思想是对难正样本(相似度低)和难负样本(相似度高)施加更强惩罚,对易样本减少惩罚。其数学形式包含动态Margin计算(Δ_p = max(0, m-s_ap), Δ_n = max(0, s_an-m))和优化目标项O=(s_ap-Δ_p)+(Δ_n-s_an)。最终损失函数采用对数形式,通过Sigmoid函数将正负样本优化目标统一为可导表达式。相比传统Triplet Loss,Circle Loss能更聚焦于难样
2026-01-02 16:02:20
781
原创 表示/嵌入差异-7.1-间隔/边际对齐(Alignment Margin)-算法-Contrastive Loss(对比损失)-Triplet Loss (三元组损失)-InfoNCE / NT-Xe
本文对比分析了三种度量学习损失函数:对比损失(Contrastive Loss)、三元组损失(Triplet Loss)和噪声对比估计损失(InfoNCE/NT-Xent)。对比损失通过成对样本优化正负样本距离,计算简单但依赖样本平衡;三元组损失利用锚点-正负样本三元组强制距离约束,几何解释清晰但采样困难;InfoNCE将对比学习转化为多分类任务,利用温度系数隐式控制分离程度,适合自监督学习但需要大batch。三种方法各有优劣,分别适用于手写体识别、人脸识别和自监督视觉表示学习等不同场景。
2026-01-02 09:32:42
1023
原创 表示/嵌入差异-7-间隔/边际对齐(Alignment Margin)
摘要(150字): Alignment Margin是嵌入对齐与度量学习的核心思想,通过预设间隔参数强制区分正负样本对的嵌入距离。其核心目标是在跨模态、跨语言或跨知识图谱(KG)等任务中,使正样本对距离最小化,负样本对距离最大化。典型应用包括KG实体对齐,通过Triplet Loss等损失函数实现边际约束。PyTorch Metric Learning是最推荐框架,提供灵活的内置损失函数与负采样策略。该方法的优势在于几何解释性强、泛化性好,但对超参敏感且依赖负样本质量。适用于图像-文本检索、多语言嵌入对齐、
2025-12-31 22:23:05
589
原创 表示/嵌入差异-6-跨知识图谱嵌入偏移(Cross-KG Embedding Shift)
本文介绍了跨知识图谱(Cross-KG)学习的核心原理与方法。针对不同来源知识图谱的结构异构性问题,提出通过将多个KG映射到同一向量空间实现语义对齐。关键技术包括:基础嵌入生成、锚点对选取、偏移量计算和嵌入空间对齐。文章分析了该方法的优势(利用图结构、处理异构性)与局限(依赖种子对齐、动态适配差),并推荐了PyKEEN等实现框架。典型应用场景包括跨KG实体对齐、多源知识补全和跨语言KG融合。最后提供了基于PyKEEN的代码示例,展示如何计算和应用嵌入偏移量实现空间对齐。
2025-12-31 10:59:15
1651
原创 表示/嵌入差异-5-皮尔森相关系数(Pearson Correlation Coefficient)
皮尔森相关系数(PCC)是衡量两个连续变量线性相关程度的统计指标,取值范围为[-1,1]。其核心公式为协方差除以各自标准差的乘积,具有对称性、量纲无关性等特点,但对异常值敏感且仅能检测线性关系。PCC适用于正态分布数据,常用于特征筛选、金融分析和科学研究。计算时可选用pandas(批量分析)、SciPy(含显著性检验)或NumPy(高性能计算)。使用时需注意其无法识别非线性关系和因果关系。
2025-12-30 20:24:17
645
原创 表示/嵌入差异-4-闵可夫斯基距离(Minkowski Distance-曼哈顿距离-欧氏距离-切比雪夫距离
摘要: 闵可夫斯基距离是n维空间中度量两点距离的统一方法,通过参数p控制距离类型:p=1时为曼哈顿距离(L1),p=2时为欧氏距离(L2),p→∞时为切比雪夫距离(L∞)。其几何意义随p值变化,p越小对异常值越鲁棒,p越大则放大极端差值。优点包括通用性强、参数灵活、计算高效,但存在量纲敏感、忽略特征相关性等问题。适用于低维稠密数据,高维场景推荐余弦相似度。实现时可选用NumPy(自定义p值)、SciPy(经典p值)或Scikit-learn(机器学习集成)。
2025-12-30 07:29:34
1255
原创 表示/嵌入差异-3-马氏距离-马哈拉诺比斯距离(Mahalanobis Distance)
马哈拉诺比斯距离是一种考虑数据相关性和量纲的多维距离度量方法,通过协方差矩阵消除特征间的线性相关性和量纲差异。相比欧氏距离,它能更准确地衡量数据异常程度,适用于多元正态分布数据。核心计算步骤包括均值向量、协方差矩阵及其逆矩阵的求解。优点在于消除量纲影响和特征相关性,但计算复杂度高且对矩阵可逆性敏感。典型应用包括异常检测、生物特征识别和质量控制等领域,但不适用于高维稀疏数据。
2025-12-29 19:59:29
836
原创 表示/嵌入差异-2-余弦相似度(Cosine Similarity)
余弦相似度是一种衡量向量方向相似性的核心度量方法,通过计算向量夹角的余弦值来评估相似度。其数学定义为两个向量的点积除以它们的L2范数乘积,取值范围为[-1,1]。主要优点包括对高维数据的良好适应性、不受向量长度影响、对稀疏数据友好以及计算高效。但也存在忽略绝对数值差异、不满足三角不等式等缺点。在实现上,可使用NumPy手动计算,或通过Scikit-learn进行批量处理(支持稀疏矩阵),PyTorch/TensorFlow提供GPU加速,SciPy适用于单点计算。典型应用场景包括文本相似度计算、推荐系统和图
2025-12-29 08:31:47
1013
原创 表示/嵌入差异-1-欧几里得距离(Euclidean Distance)-L2 距离(L2 distance)-欧式距离的标准化
本文系统介绍了欧几里得距离的原理与应用。首先明确了L2范数与欧氏距离的区别,指出后者适用于向量比较。详细阐述了欧氏距离的数学定义及其在低维空间的几何解释,强调标准化处理的必要性,并介绍了三种标准化方法:特征级(Z-score、Min-Max)、距离级和协方差标准化。分析了欧氏距离的优缺点,指出其适合低维稠密数据但存在维度灾难等问题。最后比较了NumPy、SciPy、scikit-learn、FAISS等框架的实现特点,根据数据规模推荐了不同场景下的最优选择,并提供了各框架的具体代码示例。
2025-12-28 21:47:03
690
原创 词汇/表达差异-11-Rule-based(基于规则)
摘要: Rule-based方法是基于预定义逻辑规则进行实体匹配的确定性方法,主要类型包括字符规则、同义规则、本体约束等。其流程包含数据预处理、规则集定义和规则引擎构建。优势在于高精度、可解释性强、无需训练数据,但存在低召回率、维护成本高的缺点。适用于结构化数据清洗、特定领域实体解析等场景,常与机器学习方法结合使用。优化策略包括规则优先级设置、自动化更新和冲突检测。Rule-based作为AI经典方法,在可解释性和效率方面表现突出,但需注意其泛化能力限制。
2025-12-28 11:03:58
959
原创 词汇/表达差异-10-LSH(局部敏感哈希)
LSH(局部敏感哈希)技术概述 LSH是一种高效的高维数据近邻检索方法,通过特殊设计的哈希函数使相似数据大概率映射到相同哈希桶。其核心原理是利用AND/OR构造实现概率放大,通过调整波段(b)和行数(r)平衡查全率与查准率。相比传统两两比较方法,LSH可将复杂度从O(N×D)降至近O(N)。该技术特别适合文本去重、推荐系统等场景,但存在参数调优复杂、不保证100%召回等局限。主流实现包括datasketch、faiss等库,其中faiss支持大规模向量检索和分布式处理,是工业级应用的首选。
2025-12-25 20:39:48
1330
原创 词汇/表达差异-9-MinHash(最小哈希)
摘要 MinHash是一种高效的高维集合相似度估算算法,通过将集合映射为短哈希签名来近似计算Jaccard相似度。其核心思想是:相似集合在随机排序下的最小元素很可能相同。算法步骤包括:1)将数据转化为集合形式;2)应用多个哈希函数;3)取各函数的最小值组成签名;4)通过签名匹配比例估算相似度。MinHash适用于文本去重、推荐系统等场景,具有高效、可扩展等优点,但不适用于负值数据或需要精确结果的场景。Python实现可使用datasketch等库。
2025-12-25 07:35:55
727
原创 词汇/表达差异-8-Token Overlap(词元重叠度)
Token Overlap是一种简单高效的文本相似度计算方法,通过统计两个文本共同词元的数量或占比来衡量相似性。其核心思想是将文本分词后计算词元集合的交集与并集,主要分为集合型(无频率)和频率型(考虑词频)两种计算方式。典型应用包括信息检索、文本去重、推荐系统等场景。该方法计算速度快、直观易懂,但无法捕捉语义关联和词序信息。中文处理推荐使用Jieba分词+Pandas组合实现,英文可使用spaCy或NLTK库。Token Overlap是Jaccard系数在文本分析中的具体应用,适合处理短文本和稀疏数据。
2025-12-24 22:12:50
1129
原创 词汇/表达差异-7-Alias覆盖率
摘要: Alias覆盖率是评估实体识别系统对实体别名覆盖程度的量化指标,适用于知识融合、实体链接等领域。其计算公式为系统识别出的别名与实体所有已知别名的交集占比,范围0-1。该指标直观反映系统对实体变体的识别能力,尤其适合高变体实体场景,但依赖高质量标注数据且忽略别名重要性差异。典型应用包括知识图谱构建、搜索引擎理解、医疗数据集成等。与相似度指标不同,Alias覆盖率属于评估类指标,需依赖底层匹配算法判断别名覆盖情况。
2025-12-24 22:10:52
394
原创 词汇/表达差异-6-n-gram分布距离
摘要:N-gram分布距离原理与应用 N-gram分布距离通过比较文本中连续n个字符/词汇的统计分布差异来度量相似性。其核心是将文本拆解为n-gram片段,计算频率分布的距离(如余弦、Jaccard等)。该方法具有无需对齐、捕捉局部模式等优点,适用于文本分类、拼写检查等场景,但存在忽略语义和维度爆炸的局限。典型实现包括NLTK+SciPy(通用处理)、RapidFuzz(高性能匹配)和spaCy+scikit-learn(工业级NLP)等组合。通过调整n值可平衡敏感度与计算效率,是表面文本匹配的有效工具。
2025-12-23 22:12:35
936
原创 词汇/表达差异-5-Tanimoto系数(广义Jaccard相似系数)
Tanimoto系数是衡量向量相似度的指标,它基于点积与模长计算,可视为Jaccard系数在实数域的推广。该系数将点积视为"交集",模的平方和减点积视为"并集",适用于二进制向量和连续值向量。其取值范围为[0,1],值越大相似度越高。Tanimoto系数在化学信息学和高维稀疏数据中表现优异,具有计算高效、可解释性强的特点,但也存在忽略特征权重等局限性。该系数既保留了Jaccard系数的集合重叠思想,又扩展了对向量型数据的适配性。
2025-12-23 22:07:59
1762
原创 词汇/表达差异-4-Jaccard 相似系数(Jaccard similarity )
Jaccard系数是衡量集合相似度的经典指标,通过计算交集与并集之比来量化集合重叠程度。其核心优势在于对稀疏集合数据的自然刻画、尺度稳定性和强可解释性,广泛应用于文本处理、知识图谱匹配、推荐系统等领域。主要缺点包括忽略元素频率和顺序、对噪声敏感等。实际应用中,RapidFuzz适合集合/字符串处理,scipy适用于向量计算,而scikit-learn则更适合机器学习任务。Jaccard系数特别适合需要快速评估集合重叠度的场景,但需注意其局限性。
2025-12-22 20:32:56
1434
原创 词汇/表达差异-3-海明距离(Hamming distance)
海明距离(Hamming Distance)是一种简单而高效的度量方法,用于衡量两个等长字符串(或二进制序列)在相同位置上不同字符的数量。
2025-12-21 22:01:14
974
原创 词汇/表达差异-2-Jaro和Jaro-Winkler
Jaro 距离(Jaro Distance)是针对设计的相似度 / 距离度量算法,核心聚焦于字符串中字符的情况,特别适合人名、地名、实体指称等短文本的差异度量。
2025-12-20 18:55:23
1315
原创 词汇/表达差异-1-编辑距离-莱文斯坦距离-Levenshtein
编辑距离是一种衡量字符串相似度的经典算法,通过计算将一个字符串转换为另一个字符串所需的最少单字符编辑操作次数(插入、删除、替换)。其核心采用动态规划方法,构建DP表记录子问题最优解,时间复杂度为O(mn)。该算法直观易懂且应用广泛,可用于拼写检查、数据清洗等场景,但存在计算成本高、忽略语义等局限。主流实现库如RapidFuzz通过C++优化和SIMD指令显著提升性能,支持多种相似度计算方式,是当前推荐选择。
2025-12-19 21:15:01
917
原创 RuntimeError: CUDA error: device-side assert triggered
摘要:在训练序列到序列模型时出现CUDA设备端断言错误。通过设置CUDA_LAUNCH_BLOCKING=1同步模式定位到问题发生在torch.nn.functional.embedding层。经检查发现错误原因是SentencePiece词表中的pad_id被错误设置为-1,这源于训练词表时使用了--user_defined_symbols参数但未正确设置ID。解决方案是重新训练词表,删除--user_defined_symbols参数,确保所有特殊标记ID都在合法范围内(0到vocab_size之间),
2025-12-08 19:45:00
348
原创 多头注意力笔记
本文介绍了多头注意力机制的结构与运算过程。通过多个注意力头并行计算,每个头使用独立的线性变换矩阵,在训练过程中自然学习不同的关注模式。运算流程包括输入形状变换、缩放点积注意力计算和最终输出调整三个关键步骤。多头机制的优势在于:1)通过随机初始化和数据多样性实现各头的差异化学习;2)损失函数引导各头学习对任务有用的互补模式;3)输出层融合实现协同优化。这种结构使模型能够捕捉输入数据中更丰富的特征信息。
2025-11-06 15:59:25
905
原创 Bahdanau注意力Pytorch实现
本文实现了一个基于Bahdanau注意力的序列到序列模型,主要包含四个组件:1)双向GRU编码器,将输入序列转换为隐藏状态和上下文向量;2)Bahdanau注意力机制,通过可学习参数计算对齐分数;3)GRU解码器,结合注意力权重和编码器输出来生成目标序列;4)Seq2seq主模型,整合各组件并支持教师强制训练。模型采用双向编码器输出投影、多层隐藏状态处理,以及标准的Bahdanau注意力计算公式。代码清晰实现了编码器-解码器架构的核心功能,包括词嵌入、RNN处理、注意力权重计算和上下文向量生成等关键环节。
2025-11-04 19:53:26
593
原创 Bahdanau注意力笔记
本文提出了一种基于注意力机制的改进编码器-解码器模型。传统方法将整个输入序列压缩为固定长度向量,导致长序列信息丢失。新方法的核心在于:编码器生成完整序列的隐状态,解码器通过注意力机制动态计算输入序列中各部分的权重,生成上下文向量进行解码。具体实现包括双向GRU编码器、注意力模块(计算对齐分数)、单向GRU解码器三部分。注意力机制通过参数W、U、v计算输入序列各位置与当前解码状态的关联度,使用softmax生成注意力权重。实验表明该方法能有效解决长序列信息丢失问题,提升翻译质量。
2025-11-03 23:02:24
1236
原创 利用一阶马尔可夫性质,通过已知的单步动态来计算多步状态演变的数学推导
Pxt1∣xt−1Pxt1xt−1Pxt−1Pxt1∣xt−1Pxt−1Pxt1xt−1为了得到联合概率 (P(x_{t+1}, x_{t-1})),我们对中间变量xtx_txt求和(如果xtx_txtPxt1xt−1∑xtPxt1xtxt−1Pxt1xt−1∑xtPxt1xt。
2025-10-25 20:07:24
1218
软件设计师教程(第三版)电子书8
2010-03-28
软件设计师教程 第三版 电子书1
2010-03-25
软件设计师教程(第三版)电子书6
2010-03-28
软件设计师教程(第三版)电子书7
2010-03-28
软件设计师教程 第三版 电子书2
2010-03-25
软件设计师教程电子书 第三版5
2010-03-28
软件设计师教程电子书 第三版4
2010-03-28
深入浅出MFC(介绍MFC程序设计技术的书籍)
2008-09-03
SQL.Server.2005数据库简明教程.电子教案.rar
2008-09-10
软件设计师教程 第三版 电子书3
2010-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅