自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python领域优质萌新创作者

技术小白的自我修养

  • 博客(334)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 联邦学习算法介绍-FedAvg详细案例-Python代码获取

在DP-FedSGD中,被选中的参与方使用全局模型参数对局部模型进行初始化,通过批梯度下降法进行多轮梯度下降,计算梯度更新量。而在DP-FedAVG中,是利用一个批次的数据进行一次梯度下降,计算梯度更新量。由服务端收集各客户端的梯度信息,通过聚合计算后再分发给各客户端,从而实现多个客户端联合训练模型,且“原始数据不出岛”,从而保护了客户端数据隐私。假设中心方是好奇的,那么客户端通过某种规则向其他客户端广播梯度信息,收到梯度信息的客户端聚合参数并训练,将新的梯度信息广播。面向神经网络模型, 假设网络总共有。

2023-03-12 10:36:34 20931 124

原创 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

你好!这是一款实体关系联合标注的本地小程序,以Python3Python3Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用PythonPythonPython编程实现可视化界面和主要功能,利用HTMLHTMLHTML和CSSCSSCSS提示标注教程与规范(无需关心它们如何实现)。利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。

2022-10-31 15:44:50 7365 86

原创 模型分割 与 模型分片

在实际应用中,例如PyTorch的完全分片数据并行(Fully Sharded Data Parallel, FSDP)技术,它通过将模型参数和梯度分片到多个GPU上来实现并行处理,每个GPU持有模型的一部分,并在其本地数据上进行前向和后向传播。模型分割可以是水平分割,即将模型的不同层分配到不同的设备上;此外,OneFlow框架提供了大模型分片保存和加载策略,它基于全局视角的概念,利用Placement与SBP完成模型文件在各个物理设备上的切分,适用于当模型大到无法在单个设备的内存或显存上容纳下的场景。

2024-09-27 20:08:51 73

原创 一个证明-待验证

中的一个集代数,那么由。定理 6 指出,如果。这就完成了定理的证明。

2024-09-26 23:06:26 444

原创 Π-系上的最小 d-系等于 Π-系上的最小集代数

系的定义还允许集合的并集和差集。中所有集合的并集、交集和差集。上的最小集代数,这意味着它包含。是最小的,它不会包含任何不在。上的最小集代数,它已经包含了。中所有集合的并集、交集和差集。-系上的最小集代数. 即若。还可能包含其他集合,因为。中的所有集合,并且满足。-系,这意味着它满足。-系上的最小集代数。

2024-09-25 19:56:08 1272

原创 逆概率加权(R和Python案例)

逆概率加权(Inverse Probability Weighting, IPW)是一种统计技术,用于观察性研究中调整混杂变量的影响,以便更准确地估计因果关系。这种方法特别有用于在无法进行随机化实验的情况下,通过给予不同个体不同的权重,从而使得样本在处理组和对照组之间更加平衡,达到类似于随机对照试验的效果。

2024-09-25 10:20:35 1338

原创 逆概率加权

逆概率加权(Inverse Probability Weighting,简称IPW)是一种在统计分析和因果推断中常用的方法,它用于调整观察数据中的选择偏差或者混杂因素带来的影响。逆概率加权的基本思想是给予不同观测值不同的权重,使得处理组和对照组在混杂因素上的分布趋于一致,从而可以更加准确地估计处理效应。

2024-09-25 10:14:57 564

原创 铰链损失函数

铰链损失鼓励模型找到一个可以有效区分不同类别的超平面,同时保持一定的边际(margin)。通过最小化铰链损失,模型会倾向于找到距离决策边界较远的点。:在训练过程中,铰链损失对于某些样本(即那些位于边界上的样本)会产生显著影响,而其他样本可能不会影响模型更新。:当样本被错误分类或离决策边界过近时,铰链损失会产生正值,从而对这些错误分类施加惩罚。:铰链损失的计算和优化相对简单,适合使用许多优化算法(如梯度下降)。这些特点使得铰链损失在许多机器学习应用中,尤其是分类问题中,成为一种有效的损失函数。

2024-09-24 22:14:51 415

原创 箱线图识别异常值的方法

值得注意的是,这种方法识别出的异常值是统计上的异常值,并不一定意味着这些数据是不正确的或者没有价值,它们可能代表了数据中的稀有事件或者重要的信息。箱线图(Box Plot),又称为盒须图,是一种用于展示一组数据分布情况的统计图表。它通过绘制数据的最大值、最小值、中位数、第一四分位数(Q1)和第三四分位数(Q1)来描述数据的分布。的数据点都可以被定义为异常值。:首先计算四分位距,即第三四分位数(Q3)与第一四分位数(Q1)之间的差值。在箱线图中,异常值通常用单独的点表示,位于箱体之外的横线(须线)的末端。

2024-09-24 11:18:19 692

原创 高维数据和超高维数据

在统计学中,高维数据和超高维数据都是指具有大量特征(变量)的数据集,但它们之间存在一些重要的联系与区别。维度的定义:统计方法:应用场景:总结来说,高维数据和超高维数据在维度和样本数量的关系上有所不同,从而导致在处理和分析时需要采用不同的方法和理论。

2024-09-23 21:59:36 448

原创 高维空间的维数灾难问题

高维空间的维数灾难问题是指在处理高维数据时,随着维度的增加,数据的性质发生了显著变化,从而导致许多传统的机器学习和统计方法失效的现象。

2024-09-23 21:35:30 246

原创 异常值理解

统计定义在统计学中,异常值通常是指在数据分布的尾部的点。比如,可以用标准差来定义:数据点如果离均值超过一定的标准差范围(如3个标准差),则可视为异常值。领域定义不同领域的异常值可能有不同的含义。在金融领域,异常值可能表示欺诈行为;在医疗领域,异常值可能指代罕见疾病。影响因素异常值可能会对模型的性能产生显著影响,导致模型偏向于错误的决策。因此,识别和处理异常值是数据预处理的重要步骤。

2024-09-22 19:57:10 202

原创 Ray是一个流行的分布式 Python 框架

Getting Started with Distributed Machine Learning with PyTorch and Ray-链接1: PyTorch & 分布式框架 Ray :保姆级入门教程-链接2: pytorch使用Ray-tune对原有训练模型的代码改写,自动调参(一)-链接3: PyTorch + Ray Tune 调参-链接4:

2024-09-21 23:14:11 243

原创 消融结果比较

消融结果比较指的是在研究中通过逐步移除或修改某些特征、组件或模型部分,来评估它们对最终结果或性能的影响。这种方法帮助识别哪些部分对模型的表现最重要,从而更好地理解模型的特性和贡献。

2024-09-21 16:26:53 101

原创 超平面法向量和固定随机特征方向

通过这个例子,我们看到,法向量的更新允许模型适应新数据的标签,但如果特征方向固定,模型的适应性会受到限制,无法有效捕捉数据分布的变化。

2024-09-21 15:30:29 645

原创 过采样和欠采样

过采样和欠采样是处理不平衡数据集的两种常用技术,主要用于机器学习和数据挖掘中。

2024-09-21 11:59:01 290

原创 往证是什么意思

往证”的思路是一种反证法的应用,通过假设反面情况并推导出矛盾,来证明原命题的正确性。它在许多数学证明中是一个强有力的工具。

2024-09-18 20:25:12 395

原创 给定一个Π系生成含有Π系的最小集代数

的最小集代数,因为去掉任何一个集合都会破坏其集代数的性质。,它是一个集合族,满足任意两个集合的交集属于。的所有有限并和补集。:通过上述构造,生成的集合族是包含。最终,你得到的集合族即为包含。:首先,确保你有一个。

2024-09-18 19:33:54 684

原创 Π系与λ系

在概率论中,Π 系和 λ 系都是与 σ-代数相关的概念,但它们的性质和用途不同。

2024-09-18 16:41:02 436

原创 集代数生成的最小σ代数等于集代数生成的最小单调类

由于 σ-代数对所有可数并和交集封闭,它也包含了所有的单调类(因为单调类的定义对特定的单调序列封闭)。因此,最小单调类生成的 σ-代数实际上是包含了最小 σ-代数的所有集合。这是因为集代数(algebra of sets)生成的最小σ-代数和最小单调类在本质上是相同的。,我们可以生成一个更大的单调类,这个单调类实际上就是集代数。本身是一个单调类,因为它对有限并和交集封闭。的所有 σ-代数中的最小集合类。的所有单调类中的最小集合类。所有可数并和交集的集合类,包含。,其最小单调类是包含。

2024-09-17 22:48:05 799

原创 σ-代数一定是单调类但单调类不一定是σ-代数

不完全准确。一个集合类如果对可数并封闭,对可数交封闭,并不一定是单调类。这里有关键的区别:单调类(monotone class):可数并封闭和可数交封闭:如果一个集合类对所有可数并封闭(即若{An}\{A_n\}{An​} 是该类中的任意集合的序列,则⋃n=1∞An\bigcup_{n=1}^{\infty} A_n⋃n=1∞​An​ 也在该类中),并且对所有可数交封闭(即若{An}\{A_n\}{An​} 是该类中的任意集合的序列,则 ⋂n=1∞An\bigcap_{n=1}^{\infty} A_n⋂n

2024-09-17 20:57:08 766

原创 集合的子集类

PW的所有非空子集是一个集合,包含了PWP(W)PW的所有非空子集。PWP(W)PW的所有非空子集类通常是指满足特定条件的子集族,这些条件可以包括补集封闭性、有限加法封闭性等。

2024-09-16 17:44:51 784

原创 术语“in law”(在分布上)

在概率论和统计学中,术语“in law”(在分布上)指的是随机变量的分布收敛到某个目标分布的情况。下面是对这个概念及其在定理中的应用的详细解释。这意味着虽然随机变量的分布变化,但是它们的值在某个有限范围内的概率趋向于1,不会无限增大。虽然“在分布上收敛”说明了分布的收敛性,但定理中指出,如果。是一系列随机变量,并且它们的分布函数。的值在概率上被控制在某个有限范围内。的概率可以使得小于任意的。的分布收敛于某个目标分布。收敛于某个目标分布函数。在分布上收敛于一个分布。的增大趋向于分布函数。

2024-09-15 22:19:30 446

原创 罗素悖论 是集合论中的一个经典悖论

罗素悖论(Russell’s Paradox)是集合论中的一个经典悖论,揭示了某些集合定义的矛盾。悖论的核心是这样的:考虑一个集合,包含所有不包含自身作为元素的集合。这个悖论促使集合论的发展,引入了更严格的公理系统,如 ZFC(策梅洛-弗兰克尔集合论)。策梅洛-弗兰克尔集合论(Zermelo-Fraenkel Set Theory,简称 ZF 或 ZFC)是现代集合论的基础之一,用来避免罗素悖论及其他集合论悖论。ZF集合论通过一组公理定义集合的行为,这些公理为集合论提供了一个坚实的基础。

2024-08-31 21:19:51 240

原创 英文的花体字母 latex

【代码】英文的花体字母 latex。

2024-08-31 20:04:53 291

原创 上下极限与上下确界的区别

2024-08-30 22:16:33 151

原创 简单理解数学中的上确界

上确界(supremum)是指一个集合中所有元素的最小上界,并不一定是集合中的最大值。如果集合中存在最大值,那么上确界和最大值是一样的;如果没有最大值,上确界是最接近的那个值。考虑集合 ( S = (0, 1) ),也就是所有大于 0 小于 1 的实数。这个集合是开区间,包含了所有介于 0 和 1 之间的实数,但不包含 0 和 1。因此,尽管集合 ( S ) 的上确界是 1,但 ( S ) 中没有 1 这个最大值。一个经典的例子是实数集合中开区间的情况。

2024-08-30 22:05:35 664

原创 tqdm 进度可视化

【代码】tqdm 进度可视化。

2024-06-18 18:40:51 226

原创 visdom由于目标计算机积极拒绝无法连接

ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝,无法连接。解决方法:先进入虚拟环境,再启动visdom。在cmd中,查看虚拟环境。

2024-06-16 23:09:57 367

原创 算法-对列表元素划分成两个和值最大且相等的子列表

现有私募基金发行一支特殊基金产品,该基金认购人数上限不超过 30 人, 募集总金额不超过 3000W,每个投资人认购金额不定。该基金只能将募集到的钱用于投资两支股票,且要求两支股票投资金额必须相同,且每位投资人的钱只能用于投资一支股票或不投资。问如何在给定募集条件下,实现投资金额最大化。如果无法实现则返回0解题方法注意:[1, 2, 3, 10, 5, 5], 只要求子集和为总和一半,不管哪种划分方式,都是“最优解”

2024-06-02 17:01:04 966 2

原创 算法-找出N个数组的共同元素

3.1、使用集合的intersection_update方法,将当前编辑的新闻编号集合与common_news_set取交集,并更新common_news_set。1.1、使用集合的交集操作找出被所有编辑共同编辑过的新闻:遍历每个新闻集合进行交集操作,时间复杂度为O(K),其中K为所有编辑操作的总数。3.2、这样,common_news_set中将保留与当前编辑共同编辑过的新闻编号,即找到所有编辑共同编辑过的新闻编号的交集。news_ids: 一个包含N个列表的列表,每个列表包含一个编辑编辑过的新闻编号。

2024-06-02 16:48:54 947

原创 Python生成模拟数据、随机文本-Faker库

Faker是一个用于生成虚假数据的Python库,它提供了一种简单而强大的方式来生成各种类型的随机数据,包括姓名、地址、电子邮件、文本、日期、数字等。这对于进行测试、填充数据库或者生成模拟数据是非常有用的。

2024-02-03 21:21:18 819 1

原创 Lindeberg-Feller 定理

Lindeberg-Feller 定理是概率论中关于中心极限定理的一个重要结果,它提供了一种条件,使得独立同分布的随机变量的和的标准化形式在极限情况下收敛到标准正态分布。Lindeberg 条件的直观解释是,随着样本量的增加,随机变量的方差被"适当地"控制,使得随机变量的和标准化后趋于正态分布。总的来说,Lindeberg-Feller 定理是中心极限定理的一个重要推广,适用于更一般的随机变量序列,并提供了一种更强大的工具来理解随机变量和它们和的渐近分布。是独立同分布的随机变量,具有相同的均值。

2023-12-12 19:22:55 1515

原创 特征函数的共轭

简而言之,特征函数的负虚部与其共轭的关系。其中上方横线表示共轭。特征函数的共轭关系是。

2023-12-12 14:16:58 762

原创 上确界(supremum)

上确界(supremum)是实数集合中的一个概念,它表示集合的上界中的最小值。换句话说,如果存在一个数,它是集合中的上界并且不比任何其他上界小,那么这个数就是这个集合的上确界。那么,(s) 就是集合 (A) 的上确界。上确界不一定属于集合,但它是集合中所有上界中最小的一个。上确界在数学分析、实分析以及集合论等领域中经常用于描述和证明。

2023-12-11 21:17:38 3216

原创 R可积与L可积

总体而言,R可积和L可积都是用来描述随机变量的可积性的概念,其中R可积是在Riemann意义下的可积性,而L可积是在Lebesgue意义下的可积性。在很多情况下,它们是等价的,但对于一些特殊的情形,Lebesgue积分更灵活,能够处理一些Riemann积分难以处理的情况,例如处理非绝对收敛的积分。在概率论的基础中,R可积和L可积是两个与随机变量相关的概念。这些概念通常用于描述随机变量的可积性,即它们的期望是否存在或有限。

2023-12-11 21:15:59 1833

原创 AttributeError: cannot assign module before Module.__init__() call 解决方法

方法之外对模块中的某些成员进行了初始化或赋值操作,导致模块还没有被完全初始化就已经被调用了。为了解决这个问题,需要将所有的初始化或赋值操作移到。方法中进行所有的初始化和赋值操作,确保模块中的所有成员都在。方法内被正确初始化后再进行调用即可避免出现。,并且想要在其中定义一个类变量。例如,如果有一个自定义模块。这个错误通常是由于在。

2023-12-06 13:07:36 1794

原创 torch 打印网络参数、结构

它提供了一种方便的方式来打印网络结构的摘要信息,包括每个层的名称、形状和参数数量等。其中input_size指定了输入张量的形状。是定义的神经网络模型对象。这将输出整个网络的结构信息,包括每个层的名称、输入和输出尺寸以及参数量等。该代码遍历了模型中所有需要梯度更新的参数,并打印出参数名称和对应的数值。首先需要导入该类,然后实例化一个对象,并将其赋值给。以上代码遍历了所有子模块,并打印出每个子模块的名称和对应的结构信息。注意:如果模型包含多个子模块(例如,使用。要打印网络结构,可以使用。

2023-12-06 13:05:09 1190

原创 itertools.chain.from_iterable()的含义与用法

将多个可迭代对象中的元素平铺为一个迭代器,这个迭代器包含了所有可迭代对象中的元素。是一个Python列表(list),它最终将包含多个模型的预测值。中的一个函数,它用于将多个迭代器组合成一个迭代器。这样得到的列表包含了当前模型的预测值。是一个模型输出的预测值,是一个张量(tensor)。包含了原始列表中所有的元素,但没有嵌套的子列表。是一个模型输出的预测值、是一个张量,将嵌套列表扁平化为一个迭代器,最后使用。的含义是将当前模型的预测值列表(由。,它们都包含嵌套的子列表。将迭代器转换为扁平化后的列表。

2023-12-06 13:00:49 992

原创 pytorch中A网络的embedding层的权重参数已经初始化为F了,copy.deepcopy(A)的结果网络也跟着初始化为F吗?

的权重参数的值相同,即都是预训练的词向量,但它们是两个独立的张量对象,它们在内存中的地址不同,修改其中一个张量的值不会影响到另一个张量的值。也就是说,当我们通过反向传播计算梯度后,优化器会根据梯度信息来更新网络中所有的参数。方法进行深拷贝时,只有对象的属性值才会被拷贝,而对象的方法、类属性等则不会被拷贝。的权重参数是独立的,而不会共享相同的内存空间。方法对模型A进行深拷贝,那么得到的新模型的权重参数将与模型。在上面的代码中,我们首先定义了一个包含预训练词向量的模型。中的参数不参与反向更新,可以将它的。

2023-12-06 12:56:46 845 1

好好画词云图,完整项目数据和代码

博主拿出压箱底的优质代码,和小伙伴们一起品鉴! - 画出词云图 - 指定词云图形状 - 多个文本批量生成多张词云图 - 加词库,添加所有感兴趣的词语 - 停词库,筛选掉所有不感兴趣的词语,融合了四个国内主流停词库(`7352个停词`) - 忽略单个字符 - 控制图片大小、颜色、字体与频率大小 - 自动保存高分辨率词云图到本地

2023-04-07

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

2023-03-26

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

这是一款实体关系联合标注的本地小程序,以Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用Python编程实现可视化界面和主要功能.

2022-10-31

方差分析chenyi.py

博主课程作业,自定义模块,实现多种情况方差分析

2021-12-12

采集到的重庆二手房重庆房地产数据.xlsx

重庆市各个区县房价户型等原始数据xlsx表格

2021-04-09

深圳二手房交易信息.csv

网络爬虫采集

2021-04-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除