自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(169)
  • 收藏
  • 关注

原创 科技与健康的未来:在便利与福祉之间的平衡

在数字化浪潮席卷全球的今天,科技正以前所未有的速度重塑人类的生活方式。从清晨唤醒我们的智能闹钟,到深夜仍在闪烁的短视频屏幕,科技产品已深度融入日常生活的每个角落。然而,这种深度融合也带来了深刻的矛盾:一方面,科技承诺解放人类生产力、提升生活品质;另一方面,它又可能侵蚀我们的健康、掠夺我们的注意力、甚至威胁个人隐私。本文将从视觉健康保护、思维自主权维护、劳动力优化以及隐私安全四个维度,探讨未来科技如何真正服务于人的健康福祉,而非成为奴役人类的新工具。

2025-05-22 11:41:04 761

原创 数字时代的透明人

而今,我们的行踪被地图记录,我们的社交被软件安排,我们的情感被表情包量化。友人夸赞其聪慧,能知天气,能放音乐,能讲故事,甚至能在他进门时道一声"辛苦了"。而今我们的数据——那些最私密的念头、最隐蔽的行为——却如同泼向虚空的水,不知落往何处,亦不知被何人接住。在算法的眼中,我们不过是一串行为模式的集合:A型消费者,B型患者,C型选民。我们举报邻居的言论,我们评分商家的服务,我们上传朋友的丑照。我们的隐私如同盛夏的冰块,在数据的炙烤下无声消融,最终只剩一滩水渍,被那些算法舔舐干净。隐私的消亡是缓慢的。

2025-05-20 22:51:19 710

原创 数字世界的筑梦者:论大数据时代程序员的数学修养

夜深了,小张合上《统计学习方法》,屏幕上的代码已经重构。他不再盲目调整参数,而是先分析数据分布,检查特征相关性,选择合适的距离度量。准确率开始稳步提升。老王说得对,在大数据时代,优秀的程序员必须是数学家、统计学家和计算机科学家的三位一体。雨停了,月光透过云层,在代码上投下斑驳的影子。那些符号与公式,那些定理与算法,都是程序员理解世界的语言。在这个由数据编织的时代,数学不是选修课,而是程序员的母语;统计不是工具包,而是程序员的思维方式。

2025-05-20 22:49:07 631

原创 数据库管理:数据世界的交通警察

数据库管理就像是在维护一个永远在生长的城市。数据是市民,表是建筑,关系是道路,索引是路标,事务是交通规则。一个好的数据库管理员,既是城市规划师,又是交通警察,还是急救医生。记住,数据库不是越复杂越好,而是越适合业务需求越好。就像城市不是高楼越多越好,而是要让市民生活便利。希望这篇文章能帮你理解数据库管理的基本概念,下次听到"DBA"这个词时,你知道他们不只是"管数据库的",而是数据世界的建筑师和守护者。

2025-05-20 22:45:57 617

原创 伦理|法律与科技:一场永不停歇的追逐赛(法学家的不同观点)

不同法学家给我们提供了多种视角:奥斯丁提醒我们法律是权威意志的体现,霍姆斯告诫我们要考虑现实经验,庞德号召我们把法律作为改善社会的工具,富勒则强调法律立法的“良心”与正当程序,哈特告诉我们关注法律需要被社会成员所接受

2025-05-17 15:12:14 499

原创 仅编码器,仅解码器任务对比

解码器根据源语言的上下文(通常是编码器的输出)逐步生成目标语言的文本。• 输入数据通常是一个序列(如文本、音频、图像等),编码器将其转换为固定长度的上下文表示(embedding)。编码器处理整个文档,生成一个固定长度的表示,用于后续摘要生成。• 文本生成:生成连贯的文本(如故事、诗歌、文章等)。• 文本嵌入生成:将文本转换为密集向量表示,用于下游任务(如相似性搜索、聚类等)。• 对话系统(回复生成):生成对话中的回复。• 解码器逐步生成输出序列,每一步的输出会作为下一步的输入,以保持连贯性。

2025-05-16 23:01:45 274

原创 成分句法分析vs.依存句法分析constituency parsing vs dependency parsing

句法分析(Parsing)是自然语言处理中的一个重要任务,旨在分析句子的结构和语法关系。句法分析主要有两种方法:成分句法分析(Constituency Parsing)和依存句法分析(Dependency Parsing)。它们在目标、方法和应用场景上都有显著的区别。

2025-05-16 22:37:33 646

原创 医疗数据|DICOM和HL7标准

DICOM(医学数字成像和通信标准)是医学影像领域的国际标准,规范了医学图像的格式和传输方式,确保不同设备和系统之间的兼容性。HL7(健康信息七层协议)则是医疗信息系统之间交换数据的国际标准协议,确保医院内不同系统如HIS、LIS、RIS、EMR等能够顺畅交换数据。

2025-05-16 15:05:18 969

原创 Transformer(2):小白也能懂的编码器-解码器Encoder-decoder

Transformer的编码器-解码器(Encoder-Decoder)架构是一种广泛应用于机器翻译、图像描述生成、语音识别等任务的结构。编码器负责将输入内容压缩成机器能理解的上下文向量,解码器则根据这个向量逐字生成输出。Transformer架构包括仅编码器、仅解码器和编码器-解码器三种形式,分别适用于不同的任务。

2025-05-16 14:34:51 1035

原创 Transformer介绍,一文搞懂transformer!

Transformer是一种基于注意力机制的神经网络架构,专为处理序列数据设计,克服了RNN和LSTM在并行训练和长距离记忆方面的不足。它通过自注意力机制使模型能够同时关注序列中的多个元素,从而实现高效的并行处理。Transformer的核心组件包括线性层、前馈网络和自注意力层,以及残差连接和层规范化,这些组件共同构成了Transformer块。

2025-05-16 14:26:59 635

原创 C语言Static存储类

• 初始化:静态局部变量在第一次进入函数时初始化一次,之后再次进入函数时,变量的值是上次函数调用结束时的值。• 作用域:静态全局变量的作用域被限制在定义它的文件内,其他文件无法访问它。• 存储方式:静态局部变量存储在程序的静态存储区(而非栈区),因此它在程序的整个运行期间都存在。• 生命周期:静态全局变量的生命周期与程序的运行周期相同,程序启动时初始化,程序结束时销毁。• 静态局部变量:存储在静态存储区,生命周期长,作用域在函数内。• 静态全局变量:存储在静态存储区,生命周期长,作用域在文件内。

2025-04-27 11:51:58 415

原创 国内运行Jupyter_Notebook的平台

以下是一些国内可以运行类似 Google Colab 的 Jupyter Notebook 平台:未经尝试,先码。

2025-03-17 12:01:07 885

原创 Attention

注意力机制(Attention Mechanism)是一种让模型在处理输入数据时,能够动态地关注输入中的技术。它通过计算输入元素之间的,来决定每个元素对当前任务的重要性。这种机制广泛应用于自然语言处理(NLP)、计算机视觉等领域。

2025-02-15 12:16:22 296

原创 encoder-decoder,in_transformer

Transformer是一种基于自注意力机制(Self-Attention)的架构,由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Encoder-Decoder(编码器-解码器)架构是一种广泛应用于序列到序列(Seq2Seq)任务的模型框架,主要用于处理输入和输出都是序列的任务,例如机器翻译、文本摘要、语音识别等。Transformer是基于该框架的一种具体实现,通过引入自注意力机制,解决了传统RNN在处理长序列时的局限性,显著提高了性能和效率。

2025-02-14 17:15:47 373

原创 End-to-end_training

而端到端训练将整个任务视为一个统一的整体,通过神经网络自动学习最优的特征表示和中间步骤。例如,在图像分类中,传统的机器学习方法需要手动提取边缘、角点等特征,而端到端的深度学习模型(如卷积神经网络)可以直接从原始图像学习分类。“End-to-end training”(端到端训练)是一种深度学习方法,指的是模型从原始输入直接学习到期望输出,而无需手动设计中间特征提取或分步骤优化。RNN(循环神经网络)在端到端训练中的应用主要体现在处理序列数据的场景,例如语音识别、自然语言处理等任务。

2025-02-14 16:59:00 456

原创 RNN_vs._attention

RNN (Recurrent Neural Network) and Attention are both mechanisms used in sequence modeling tasks (e.g., natural language processing, time series analysis), but they work in fundamentally different ways. Here’s a comparison of the two:How it works:Key chara

2025-02-14 12:37:54 702

原创 zip_python

Thezip()

2025-01-30 11:13:31 894

原创 word2vec_skip-gram_negative_sampling

Word2Vec是一种用于生成词向量的模型,其中Skip-Gram和Negative Sampling是其核心组成部分之一。

2025-01-19 17:10:07 771

原创 Effect_size_p_value

如果P值很小(通常小于0.05或0.01),则意味着在零假设成立的情况下,观察到当前结果的概率非常低,因此我们有理由拒绝零假设,认为分类器A确实优于分类器B。• 如果P值较大(大于0.05或0.01),则意味着在零假设成立的情况下,观察到当前结果的概率较高,因此我们没有足够的证据拒绝零假设,不能认为分类器A优于分类器B。• 如果P值很小(通常小于0.05或0.01),则意味着在零假设成立的情况下,观察到当前结果的概率非常低,因此我们有理由拒绝零假设,认为分类器A确实优于分类器B。

2025-01-16 12:16:43 979

原创 NLP多项式朴素贝叶斯公式

通过用单词 w_i 在类别 c_j 中出现的次数除以该类别文档中所有单词出现次数的总和,得到在该类别下这个单词出现的条件概率。例如,若有100篇文档,其中20篇属于类别A,那么类别A的先验概率 $ \hat{P}(A) = \frac{20}{100} = 0.2$。• count(w_i, c_j) 是在属于类别 c_j 的文档中,单词 w_i 出现的次数。• doccount(C = c_j) 是在数据集中属于类别 c_j 的文档数量。

2025-01-15 16:47:28 507

原创 Sklearn_dummy_classifier

这在评估其他更复杂的分类模型的性能时很有用。你可以将复杂模型的性能和DummyClassifier对比,如果复杂模型的性能比DummyClassifier还差,那就说明该模型可能有问题或者数据没有被合理利用。在使用时,需要先划分数据集为训练集和测试集,对DummyClassifier进行训练后,再用测试集评估其性能。这段代码创建了简单的训练和测试数据集,使用DummyClassifier按照最频繁类别策略进行训练,然后输出在测试集上的准确率。• 最频繁类别策略:总是预测训练集中最常见的类别。

2025-01-13 17:35:40 200

原创 Pandas连接两文字列

在这段代码中,先定义了一个名为 concat_cols 的函数,它接收一行数据作为参数 x,在函数内部,把这行数据中的 col1 和 col2 两个元素用逗号拼接起来。调用df[“col1”]的.str.cat方法,传入要拼接的列df[“col2”] ,并通过sep=","指定分隔符为逗号,拼接后的结果存入新列new_col,最后打印数据框。这段代码先利用zip函数将col1和col2两列同一行的元素一一配对,再通过列表推导式把配对元素用逗号拼接起来,最后将拼接好的列表作为新列添加到DataFrame中。

2025-01-12 17:37:04 537

原创 Encoder, autoencoder, transformer, attention

Transformer 是一种神经网络架构,它从根本上改变了人工智能的方法。Transformer 首次出现在 2017 年的开创性论文 《注意力就是你所需要的一切》中 ,此后它已成为深度学习模型的首选架构,为 OpenAI 的GPT、Meta 的Llama和 Google 的 Gemini等文本生成模型提供支持。除了文本之外,Transformer 还应用于 音频生成、 图像识别、 蛋白质结构预测,甚至 游戏,展示了其在众多领域的多功能性。

2024-12-31 19:45:21 799

原创 DFA和NFA的区别

确定有限自动机(DFA)和非确定有限自动机(NFA)都是用来识别正则语言的模型,但它们在设计和行为上有一些关键的区别:

2024-12-23 13:15:23 755

原创 SVM_polynomial_kernel_trick推导

多项式核函数是一种常用于支持向量机(SVM)等机器学习算法中的技术,它允许算法通过将原始输入映射到更高维的特征空间来处理非线性问题。当 p = 2 时,多项式核函数的具体形式和展开如下:多项式核函数的一般形式多项式核函数的一般形式是:其中:• x 和 y 是输入向量。• x \cdot y 是向量 x 和 y 的点积,即x⋅y∑i1n​xi​yi​。• c 是一个常数,通常称为偏置项,用于控制模型的自由度。

2024-12-05 17:00:34 526

原创 Serializability_and_Snapshot_Isolation

是数据库事务隔离的最高级别,它通过强制事务串行执行来避免所有并发事务可能引起的问题,包括脏读、不可重复读、幻读以及写偏序。在可串行性隔离级别下,事务的执行就好像它们是顺序执行的一样,尽管实际上它们可能是并发执行的。是一种数据库事务隔离级别,它提供了一种乐观并发控制机制,允许事务读取数据时看到的是数据在事务开始时的一致性视图,即快照。在实际应用中,需要根据业务需求和性能要求来选择合适的隔离级别。快照隔离是一种平衡了并发性和一致性的隔离级别,适用于读多写少的应用场景,能够提供较高的并发性能和一致性的读取视图。

2024-12-04 16:10:39 525

原创 集成方法是否需要剪枝

需要剪枝:单决策树、Boosting(约束树的复杂度)。不需要剪枝:Bagging(随机森林、极端随机树)、Stacking、Voting 等。需要剪枝的情况单个决策树(如 CART 或 C4.5)单独训练的决策树通常需要剪枝,尤其是在数据量较少或存在噪声时,剪枝可以防止过度拟合训练数据。剪枝方式:预剪枝(pre-pruning)或后剪枝(post-pruning)。Boosting(如 AdaBoost 和 Gradient Boosting)

2024-12-03 22:31:46 924

原创 Fine-grained provenance semirings 细粒度溯源半环

细粒度溯源半环通过数学模型的形式化定义,为数据溯源提供了一种精确且一致的方法。它的核心优势是确保等价查询生成等价的溯源信息,适用于数据操作复杂、要求高精度溯源的场景,广泛应用于数据库系统、大数据分析和数据合规性验证中。

2024-12-03 21:26:09 817

原创 Serverless Computing 无服务器计算 message queuing system

无服务器计算是云计算发展的重要趋势,它通过自动化的资源管理和按需服务,帮助开发者专注于核心业务逻辑,极大地提升开发效率并降低成本。然而,它的适用性取决于具体的应用需求和场景,需要根据项目特点进行合理选择。以下是30道关于无服务器计算(Serverless Computing)的。

2024-12-03 21:17:09 752

原创 AR and MA in ARIMA, what are they useful for

AR 捕捉时间序列数据自身的历史模式;MA 捕捉时间序列中的误差传播规律;两者结合可以更全面地描述时间序列的特性。你可以根据数据特点选择适合的 (p) 和 (q) 参数,用于优化模型的性能。

2024-12-03 21:06:56 612

原创 Gradient_learning_rate_step_size

Gradient(梯度)和 learning rate(学习率)是机器学习,特别是在优化算法中非常重要的概念。它们在训练模型时,尤其是在使用梯度下降法时,起着至关重要的作用。这个公式告诉我们,为了减少损失函数 J(\theta) 的值,我们需要在损失函数梯度的相反方向上更新参数 \theta。相对于参数 \theta 的梯度,它指示了损失函数在参数空间中增加最快的方向。是学习率(learning rate),它是一个标量值,控制着参数更新的步长。表示模型参数(可以是一个向量,包含所有参数)。

2024-12-03 17:20:59 507

原创 Torch_CNN每层大小各参数详解

• 通道数(Number of Channels):通道数指的是图像的深度,例如RGB图像有3个通道(红、绿、蓝)。# 第二个卷积层:输入通道数为32(第一个卷积层的输出),输出通道数为64,卷积核大小为3x3,步长为1,填充为1。# 第一个卷积层:输入通道数为1(例如,灰度图像),输出通道数为32,卷积核大小为5x5,步长为1,填充为2。# 输出层:输入特征数为128,输出特征数为10(假设有10个类别)7(经过两次2x2池化后),输出特征数为128。# 展平层:将多维的卷积层输出展平为一维。

2024-12-02 21:48:38 811

原创 Spark_streaming_batches

Spark Streaming 基于批处理的原因主要包括以下几点:Spark Streaming 基于批处理的优点和缺点如下:

2024-12-02 21:32:08 450

原创 梯度下降变体比较

以下是批量梯度下降(Batch Gradient Descent)、小批量梯度下降(Mini-Batch Gradient Descent)和随机梯度下降(Stochastic Gradient Descent, SGD)之间的主要区别:

2024-12-02 21:12:17 302

原创 如何在linux用deb安装软件

sudo dpkg -i /home/yxy/下载/mail.deb。

2024-11-29 22:09:41 304

原创 Python类

定义一个名为Person的类def __init__(self, name, age): # 构造函数self.name = name # 实例变量# 实例化Person类xiaoming = Person('小明', 18)print(xiaoming.name) # 输出:小明print(xiaoming.age) # 输出:18。

2024-11-29 22:07:38 151

转载 Seaborn散点图矩阵sns.pairplot

【代码】Seaborn散点图矩阵sns.pairplot。

2024-11-29 22:05:21 111

原创 linux配置jupyternotebook

然后,通过编辑配置文件来设置Jupyter Notebook的各种参数,如工作目录路径、是否允许远程访问、可访问的IP地址、服务端口等。如果需要让JupyterLab服务在后台运行,可以使用nohup命令,如nohup jupyter lab --allow-root &。在Linux系统中配置Jupyter Notebook涉及多个步骤,包括安装pip、升级pip、安装Jupyter、修改配置文件以及设置密码等。c.ServerApp.ip=‘*’ 设置可访问的IP地址,*表示所有IP地址。

2024-11-29 22:04:15 359

原创 notes_jupyter_installation

【代码】notes_jupyter_installation。

2024-11-29 22:02:59 234

原创 以年为组画temperature的boxplot

以每年为分组,画boxplot。x轴是年份,y轴是temperature_2m。

2024-11-29 22:02:15 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除