自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python领域优质萌新学习笔记

技术小白的自我修养

  • 博客(427)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 一文搞懂:如何在深度学习中使用GPU和cuda加速

接下来,我们使用 x.tolist() 方法将 x 转换为Python列表并将其添加到 result 中,或者使用 x.cpu().numpy() 方法将 x 转换为CPU上的NumPy数组,然后将该数组添加到 result 中。不是的,len(Xdata)并不在GPU上。要在GPU上创建一个列表,并将张量对象添加到该列表中,可以使用PyTorch的torch.Tensor.tolist()方法或者torch.Tensor.cpu().numpy()方法先将张量转换为NumPy数组,再将数组添加到列表中。

2023-12-02 10:17:42 7760 1

原创 菜鸟学Java public static void main(String[] args) 是什么意思?

包名的层数没有硬性的限制要求,你可以根据需要组织包的层次结构。一般来说,官方网站或文档会提供相应的版本兼容性信息,你可以参考这些信息选择适合你的项目的版本。而对于第三方库和框架包,你需要下载相应的库文件,并在项目中进行配置和引用,以便使用其功能。方法中使用其他类型的参数,你可以将命令行传入的字符串参数解析为你需要的类型。),包含了方法要执行的代码块。在这个例子中,方法体内部没有给出具体的代码,你可以在这个代码块中添加你要执行的操作。对于包的层数并没有硬性的限制要求,你可以根据自己的需要来组织包的层次结构。

2023-06-25 17:16:31 26732 6

原创 联邦学习算法介绍-FedAvg详细案例-Python代码获取

在DP-FedSGD中,被选中的参与方使用全局模型参数对局部模型进行初始化,通过批梯度下降法进行多轮梯度下降,计算梯度更新量。而在DP-FedAVG中,是利用一个批次的数据进行一次梯度下降,计算梯度更新量。由服务端收集各客户端的梯度信息,通过聚合计算后再分发给各客户端,从而实现多个客户端联合训练模型,且“原始数据不出岛”,从而保护了客户端数据隐私。假设中心方是好奇的,那么客户端通过某种规则向其他客户端广播梯度信息,收到梯度信息的客户端聚合参数并训练,将新的梯度信息广播。面向神经网络模型, 假设网络总共有。

2023-03-12 10:36:34 23440 157

原创 MySQL 案例-教学管理信息系统

MySQL简单案例,通过构建数据库、建立表格,以及约束。向表格中插入值等操作。

2023-03-11 20:04:16 7964 4

原创 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

你好!这是一款实体关系联合标注的本地小程序,以Python3Python3Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用PythonPythonPython编程实现可视化界面和主要功能,利用HTMLHTMLHTML和CSSCSSCSS提示标注教程与规范(无需关心它们如何实现)。利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。

2022-10-31 15:44:50 7849 90

原创 python爬虫技术实例详解及数据可视化库

前言在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。面对大量数据,人工获取信息的成本高、耗时长、效率低,是否能用代码去完成大量复杂的工作,从而从网络上获取到目标信息?由此,网络爬虫技术应运而生。网络爬虫简介网络爬虫(web crawler,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证...

2020-02-24 11:58:56 7752 8

原创 【初识扫盲】逆概率加权

换句话说,虽然我们是在处理缺失数据,通过逆概率加权调整,我们确保了在期望上,估计量的行为与没有缺失数据时是一致的。是一种处理缺失数据的方法,通过为每个观测到的数据点分配一个权重,这个权重是其被观测到的概率的倒数。:数据的缺失仅依赖于已观测的数据,而不依赖于未观测的数据,这使得我们能够基于观测数据的概率来调整缺失数据的影响。是指数据的缺失机制与未观测到的数据无关,但可能与已观测到的数据相关。:通过将每个观测数据点的权重设置为其被观测概率的倒数,我们能够平衡数据,减少因缺失数据引入的偏差。

2025-01-14 00:09:47 531

原创 【初识扫盲】厚尾分布

厚尾分布(Fat-tailed distribution)是一种概率分布,其尾部比正态分布更“厚”,即尾部的概率密度更大,极端值出现的概率更高。模块来计算正态分布的概率密度函数值,这里设置正态分布的均值为0,标准差为1,这是标准正态分布的参数。在这段代码中,我们增加了对正态分布的计算和绘制。

2025-01-13 15:12:58 561

原创 为什么选择平滑样条?

如果目标是提取数据的整体趋势,而不是逐点插值,平滑样条是最佳选择。如果需要计算曲线的二阶导数(如曲率相关分析),可以继续调用。在平滑样条的代码基础上,计算样本点的梯度相对简单,因为。,可以直接获得平滑样条的导数函数。这会返回二阶导数的值,可以用来分析曲率或加速度等特性。平滑样条的目标是最小化以下目标函数。平滑样条通过引入平滑参数。使用平滑样条拟合原始数据。

2025-01-11 20:48:00 1038

原创 【基础还得练】三种样条的含义

自然样条、B样条和平滑样条是数学和计算机图形学中用于曲线拟合和插值的重要工具。它们都基于样条函数(spline functions)的思想,用分段多项式来逼近数据,但它们的定义和特点有所不同。自然样条是分段三次多项式曲线,满足函数值及其一阶和二阶导数的连续性条件,同时在边界上施加自然条件(二阶导数为零)。B样条是用一组基函数构造的样条曲线,通过加权控制点生成曲线。平滑样条通过最小化拟合误差和曲线光滑性之间的加权和来构造。通过节点矢量和控制点的定义,B样条曲线可以精确控制形状。

2025-01-11 19:53:00 799

原创 Python中超过15位小数的高精度计算

是 Python 中decimal模块的一种设置方式,用于定义。

2025-01-06 16:20:20 276

原创 Python实现批量找出两个文件夹中同名文件

假设在两个目录中有文件名。

2025-01-06 14:45:12 256

原创 Python批量删除前几行

要根据文件中前四行的首字母来决定是否删除这四行,确保只有在前四行的首字母不是 “A” 或 “B” 时才删除这四行。

2025-01-06 14:30:46 250

原创 Python批量修改所有文件后缀

可以通过 Python 实现将目录下所有没有后缀的文件批量改为.txt后缀。

2025-01-06 13:50:49 296

原创 【基础还得练】EM算法中的E

期望是相对于zzz的分布pz∣x;θtp(z | x;pz∣x;θt来求的。换句话说,我们通过当前的模型参数θtθt,计算隐变量zzz的后验概率分布,并使用这个分布对log⁡pxz;θ加权平均,得到Qθ∣θtQθ∣θt。这是对隐变量的“软归属”的期望,而不是直接假设zzz取某个具体值。关键点是,pz∣x;θtp(z | x;pz∣x;θt。

2024-12-31 15:09:50 1152 1

原创 【基础还得练】Gaussian Mixture Model(高斯混合模型)

GMM 是的简称,它是一种用于数据聚类和概率密度估计的统计模型。GMM 假设数据分布是由多个高斯分布(正态分布)的加权组合构成的。

2024-12-31 15:07:29 763

原创 【基础还得练】 KKT 条件

(1) 可行性条件:hix∗0gjx∗≤0(2) 梯度条件:∇fx∗∑i1mλi∗∇hix∗∑j1pμj∗∇gjx∗0(3) 互补松弛:μj∗gjx∗0(4) 非负性:μj∗≥0&\text{(1) 可行性条件: } & h_i(x^*) &= 0, & g_j(x^*) &\leq 0 \\

2024-12-27 19:33:52 862

原创 拉普拉斯分布极大似然估计

在拉普拉斯分布中,概率密度函数 (PDF) 表示为:f(x∣μ,b)=12bexp⁡(−∣x−μ∣b),f(x | \mu, b) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right),f(x∣μ,b)=2b1​exp(−b∣x−μ∣​),其中 μ\muμ 是位置参数,b>0b > 0b>0 是尺度参数。给定一个样本数据集 {x1,x2,…,xn}\{x_1, x_2, \dots, x_n\}{x1​,x2​,…,xn​},我们需要对参数 μ\mu

2024-12-26 22:20:30 629

原创 【基础还得练】H似然相比贝叶斯的优势

H似然可以看作是贝叶斯公式的分子部分(即似然函数与先验分布的乘积)的一种扩展形式。在贝叶斯框架下,它提供了一种简化的方法,通过最大化H似然来估计参数和随机效应,从而避免了计算中的复杂积分。这使得H似然成为处理包含随机效应的复杂模型的有力工具。给出一个案例来解释H似然的优势-不需要积分。

2024-12-22 21:34:27 993

原创 【基础还得练】H-似然

这种模型的H似然方法通过联合优化固定效应和随机效应,提供了一种自然的估计方法。与经典的REML方法相比,H似然的最大优点是直接将随机效应视为参数进行估计,适用于复杂随机效应结构的模型。

2024-12-22 21:18:48 722

原创 【基础还得练】数值分析中的样条插值

三次样条(Cubic Spline)是一种常用于数据插值和曲线拟合的数学方法,它利用多个三次多项式函数来平滑连接数据点,使得拟合曲线不仅通过所有数据点,同时在各个数据点处的导数也连续,从而保证曲线的平滑性。B样条(Basis spline)是一类广泛应用于数据拟合、图形学和计算机图形学的函数。B样条本质上是由一组基函数(称为B样条基函数)构成的加权和。与三次样条相比,B样条不仅可以是三次的,还可以是任意阶数的样条函数,因此B样条是一种更一般化的插值方法。三次样条(Cubic Spline)

2024-12-21 18:10:11 977

原创 M估计(M-estimation,Maximum likelihood-type estimation)

假设我们有一个样本数据。

2024-12-16 20:58:33 943

原创 【返璞归真】Wald检验

Wald检验是一种假设检验方法,它的核心思想是利用参数的估计值(通常为最大似然估计,MLE)与假设值之间的差异,以及估计值的标准误差来构造检验统计量,从而判断假设是否合理。以下是 Wald 检验的详细理论基础:假设样本 X1,X2,…,XnX_1, X_2, \dots, X_nX1​,X2​,…,Xn​ 来自一个参数化的分布,模型的参数为 θ\thetaθ。我们感兴趣的是检验如下假设:其中,θ0\theta_0θ0​ 是原假设中参数的特定值。最大似然估计(MLE) θ^\hat{\theta}θ^ 是使似

2024-12-16 19:52:45 885

原创 【返璞归真】score检验:似然比的得分检验(Likelihood Ratio Score Test)

通过这个案例,我们展示了如何应用Score检验来检验正态分布的均值。我们通过计算得分函数、Fisher信息矩阵,得到检验统计量,并根据卡方分布进行假设检验。Score检验的依据Score检验的依据主要来源于大样本统计理论中的得分函数和渐近分布的性质。

2024-12-16 19:46:25 1080

原创 【返璞归真】统计学中的大O小o

βxβ​x​βxargmin⁡β∈Rp∑j1nρτyj−xjTββ​x​β∈Rpargmin​j1∑n​ρτ​yj​−xjT​β其中ρτϵρτ​ϵρτϵϵτ−Iϵ0ρτ​ϵϵτ−Iϵ0)}在分位数回归模型中,损失函数的导数为零点对应的参数估计量βxβ​x​∑j1nψyjxjβx0j1∑n​ψ。

2024-12-15 16:17:05 508

原创 最小绝对偏差(Least Absolute Deviation, LAD)---子梯度法

对于不可导的函数,子梯度是对目标函数的一种广义的导数概念。对于LAD的目标函数∣ri∣|r_i|∣ri​∣∂∣ri∣1ifri0−1ifri0−11ifri0∂∣ri​∣⎩⎨⎧​1−1−11​ifri​0ifri​0ifri​0​。

2024-12-09 20:34:38 500

原创 Adversarially Robust Change Point Detection 中的一项推导

本质上就是求置信区间的下界限。

2024-12-09 16:56:43 137

原创 Robust Univariate Mean Estimation算法简介

是一种统计算法,主要用于在单变量场景中估计样本的均值,同时对异常值(outliers)具有鲁棒性。传统的均值估计使用样本的算术平均值,但它对异常值高度敏感。为了缓解这个问题,Robust Univariate Mean Estimation 算法设计了一种能够在数据中存在噪声或异常值的情况下仍然提供准确估计的方法。XμEX。

2024-12-09 12:12:31 882

原创 【返璞归真】-切比雪夫不等式(Chebyshev‘s Inequality)

这些形式的核心思想是一致的:用有限的期望和方差信息估计随机变量偏离的概率。根据具体问题的背景(对称性、中心点选择、分布特性等),可以选择合适的形式。

2024-12-08 22:19:47 2981

原创 分区之间的一种度量方法-覆盖度量(Covering Metric)

在公式中,

2024-12-08 21:45:01 598

原创 最小绝对偏差 (LAD)求解方法

对于不可导的函数,子梯度是对目标函数的一种广义的导数概念。对于 LAD 的目标函数∣ri∣|r_i|∣ri​∣∂∣ri∣1如果ri0−1如果ri0−11如果ri01, & \text{如果 } r_i > 0 \\-1, & \text{如果 } r_i < 0 \\[-1, 1], & \text{如果 } r_i = 0∂∣ri​∣⎩⎨⎧​1−1−11​如果ri​0如果ri。

2024-12-08 20:26:05 1129

原创 什么是L0损失?

L0L_0L0​对于一个数据集xiyi(x_i, y_i)xi​yi​i12ni12n),假设预测函数为yifxiy​i​fxi​,则L0L_0L0​L0∑i1nIyi≠yiL0​i1∑n​Iyi​y​i​I⋅I⋅是指示函数,当条件为真时取值为 1,否则取值为 0。yiy_iyi​是第iii个样本的真实值。

2024-12-08 19:50:55 619

原创 【返璞归真】-最小绝对偏差(least absolute deviation, LAD)

最小绝对偏差(Least Absolute Deviations, LAD)是一种回归方法,其目标是最小化预测值与真实值之间的绝对偏差的总和。它是一种稳健的回归方法,对数据中的异常值(outliers)更具鲁棒性。βargminβ∑i1n∣yi−xi⊤β∣β​βargmin​i1∑n​​yi​−xi⊤​β​LAD 是一种稳健的回归方法,适用于存在异常值或误差分布偏离正态分布的情况。

2024-12-08 19:39:05 684

原创 【返璞归真】-Lasso 回归(Least Absolute Shrinkage and Selection Operator,最小绝对值收缩和选择算子)

菱形和圆形的几何特性菱形有尖点,容易使某些系数为零。圆形光滑,不会让系数变为零。优化结果Lasso 能进行特征选择(部分系数为零)。Ridge 仅缩小系数(无法选择特征)。

2024-12-08 19:29:34 1177

原创 对抗鲁棒变化点检测-2

这段话描述了在变化点检测问题中对估计器的一种期望性质,即一致性(consistency)。以下是具体含义的分步解释:我们希望设计一种方法,能够找到变化点的估计值 {η^k}k=1K^\{\widehat{\eta}_k\}_{k=1}^{\widehat{K}}{η​k​}k=1K​,使得以下两件事情同时成立:准确检测变化点的数量:K^=K\widehat{K} = KK=K即估计的变化点数量 K^\widehat{K}K 与真实的变化点数量 KKK 一致。这意味着算法不会遗漏真实的变化点,也不会产

2024-12-08 16:50:54 875

原创 对抗鲁棒变化点检测-1

假设 1 描述了一种统计场景,我们分析一组随机变量 {Yi}i=1n\{Y_i\}_{i=1}^n{Yi​}i=1n​,目的是在存在污染或对抗性噪声的情况下检测其底层分布的变化。以下是该假设的详细解释:每个随机变量 YiY_iYi​ 都被建模为一个混合分布:(1−εi)Fi+εiHi(1-\varepsilon_i) F_i + \varepsilon_i H_i(1−εi​)Fi​+εi​Hi​这意味着每个 YiY_iYi​ 的观测值可能由两部分组成:这是一个典型的污染模型,其中数据 YiY_iYi​

2024-12-08 16:44:25 933

原创 亚高斯分布(Sub-Gaussian Distribution)和亚指数分布(Sub-Exponential Distribution)

亚高斯分布(Sub-Gaussian Distribution)和亚指数分布(Sub-Exponential Distribution)是概率论和统计学中的两种重要概念,用于描述随机变量的尾部行为以及其偏离均值的概率。亚指数分布是亚高斯分布的一个自然推广,适用于那些具有轻尾但不完全满足亚高斯条件的随机变量。总结来说,亚高斯和亚指数是对随机变量尾部行为的分类,帮助我们在理论和应用中更精确地估计偏离均值的概率。亚高斯分布的随机变量比高斯分布有更轻的尾部(即,偏离均值的概率衰减得更快)。形式上,如果随机变量。

2024-12-08 15:55:55 752

原创 变点问题的公式推导

中,找到一个或多个点(变点),使得每段子序列(即变点划分的区间)能被一个较简单的模型(比如常数均值模型)很好地拟合。通常我们希望通过引入变点,使得划分后的子序列总代价减少。在变点检测的动态规划算法中,通过剔除不可能的候选变点,可以减少计算量,显著加快算法。)的拟合代价(cost)。的最优变点,我们希望尽早把它剔除,从而减少动态规划的计算量。满足一定的“单调性”假设,这在实际问题中是常见的。不可能成为未来任何时间点的最优变点。变点检测的目标是在给定的观测序列。的代价后,总代价依然大于从。

2024-12-04 01:45:48 1202

原创 一个交替优化问题的求解(再续)

求导,并找到使目标函数最小化的闭式解。(即列向量的均值为 0),因此。这个假设大大简化了计算。接着,提取目标函数中与。注意这里用到了假设数据。首先,将目标函数中的。将这些导数加总,得到。将这些导数加总,得到。

2024-11-20 00:09:06 1026

原创 一个交替优化问题的求解(续)

这一推导利用了矩阵求导法则,以及迹运算的性质。

2024-11-19 23:57:00 457

好好画词云图,完整项目数据和代码

博主拿出压箱底的优质代码,和小伙伴们一起品鉴! - 画出词云图 - 指定词云图形状 - 多个文本批量生成多张词云图 - 加词库,添加所有感兴趣的词语 - 停词库,筛选掉所有不感兴趣的词语,融合了四个国内主流停词库(`7352个停词`) - 忽略单个字符 - 控制图片大小、颜色、字体与频率大小 - 自动保存高分辨率词云图到本地

2023-04-07

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

2023-03-26

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

这是一款实体关系联合标注的本地小程序,以Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用Python编程实现可视化界面和主要功能.

2022-10-31

方差分析chenyi.py

博主课程作业,自定义模块,实现多种情况方差分析

2021-12-12

采集到的重庆二手房重庆房地产数据.xlsx

重庆市各个区县房价户型等原始数据xlsx表格

2021-04-09

深圳二手房交易信息.csv

网络爬虫采集

2021-04-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除