- 博客(41)
- 收藏
- 关注
原创 一文了解医保
医保分为城乡居民医保和城镇职工医保两种,具体报销政策因地而异。使用医保需注意:1)在定点医院就诊;2)门诊(挂号、检查购药)和住院均可报销,住院报销比例高于门诊,小医院报销比例高于大医院。特殊注意事项包括:大学生需校医院转诊后报销、异地就医需提前申请、慢性病需备案、大额费用可二次报销。此外,医保个人账户还有多种用途,但某些特定情况应避免使用医保卡。
2025-09-16 22:20:34
200
原创 图卷积神经网络GCN详解
神经网络中的权重可通过监督学习,或者无监督学习(也叫自监督学习)方式获得。对于监督学习任务,比如半监督学习节点分类,如已知部分节点类别,可构建损失函数。比如以v节点为例,将其输入图卷积神经网络得到嵌入,再加预测头预测是否发生欺诈,将预测结果与真实结果比对,算出如交叉熵损失函数(用于分类任务),目标是迭代优化神经网络权重,使交叉熵损失函数最小化,这是训练过程。若是无监督学习且没有节点标签,可借鉴。
2025-08-07 11:49:45
686
原创 GNN图神经网络
摘要: 本文系统介绍了深度学习与图神经网络(GNN)的基础理论与应用。深度学习通过深度神经网络处理图像、文本等固定结构数据,而图神经网络则扩展至非结构化的图数据(如社交网络、分子结构),通过消息传递框架实现节点嵌入学习。GNN的核心是置换不变性,即输出与节点顺序无关,其多层计算图聚合邻居信息(如GCN、GAT)。应用涵盖节点分类、链接预测、分子生成等,但面临过平滑、动态图等挑战。文中强调理论与实践结合,推荐工具包(PyG、DGL)及学习资源(如《图神经网络基础前沿与应用》),为后续图深度学习奠定基础。
2025-08-07 10:52:44
350
原创 GCN模型的设计与训练(入门案例)
本文介绍了无卷积神经网络(GCN)的基本原理和实现方法。主要内容包括:1)基于Cora数据集建立图数据结构,该数据集包含2708篇论文的引用关系和143维特征向量;2)图卷积的核心操作,包括特征线性变换和邻接特征聚合,通过邻接矩阵实现节点间信息传递;3)构建两层GCN模型,在15%训练数据下实现81.4%的测试准确率,展示了GCN处理图结构数据的有效性。实验表明GCN能有效利用节点间的拓扑关系进行特征学习和分类。
2025-07-26 12:24:23
922
原创 一文了解GCN(理论)
对于图,我们有以下特征定义:对于图, 为节点的集合, 为边的集合,对于每个节点 , 均有其特征 ,可以用矩阵 表示。其中 表示节点数,表示每个节点的特征数,也可以说是特征向量的维度。那么有什么东西来度量节点的邻居节点这个关系呢,学过图论的就会自然而然的想到邻接矩阵和拉普拉斯矩阵。举个简单的例子,对于下图中的左图(为了简单起见,举了无向图且边没有权重的例子)而言,它的度矩阵D,邻接矩阵A和拉普拉斯矩阵L分别如下图所示,度矩阵D只有对角线上有值,为对应节点的度,其余为0;邻接矩阵A。
2025-07-26 12:02:27
909
原创 LSTM入门案例(时间序列预测)| pytorch实现(可复现)
本文提出了一种基于LSTM的时间序列预测方法,用于预测未来30天的价格数据。方法首先对前113天训练数据进行归一化预处理,然后构建包含LSTM层和全连接层的回归模型。模型采用滚动预测策略,即每次使用历史数据预测下一天值,并将预测结果作为新输入继续预测。实验结果表明,该方法能够较好地捕捉时间序列模式,但预测精度仍有提升空间。文章详细介绍了数据预处理、模型构建、训练过程和预测方法,并讨论了归一化处理、隐藏状态传递等关键技术点。最后提出了增加网络复杂度、调整窗口大小等改进方向。
2025-07-15 15:27:01
996
原创 L1正则化 VS L2正则化
正则化是机器学习中防止过拟合的重要技术,通过在损失函数中添加惩罚项来限制模型参数的增长。L1正则化(绝对值之和)会产生稀疏参数,适用于特征选择;L2正则化(平方和)会使参数均匀缩小,提高模型稳定性。这两种方法分别对应拉普拉斯分布和高斯分布的先验假设。正则化不仅适用于回归任务(如Lasso和Ridge回归),也可用于分类任务和神经网络(如Dropout)。其核心思想符合奥卡姆剃刀准则——选择最简单的有效模型。实际应用中需根据数据特点和问题需求选择正则化类型,并通过交叉验证调整正则化系数λ,以平衡模型复杂度和泛
2025-07-12 18:30:26
758
原创 Redis安装记录(Windows版本)
Redis 是一个开源的使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,并提供多种语言的 API。Redis通常被称为数据结构服务器,因为值(value)可以是字符串(String)、哈希(Hash)、列表(list)、集合(sets)和有序集合(sorted sets)等类型。Redis是一个高性能的内存数据库,以其快速的数据读写速度和丰富的数据类型著称。
2025-07-08 19:02:49
782
原创 杀死你的直觉--贝叶斯公式
80%的学霸可以做对,想表达的是在已知一个人是学霸的条件下,做对这道题的概率是80%,即条件概率P(B|A)=80%。30%的普通人也可以做对,想表达的是在已知一个人不是学霸,即是普通人的条件下做对这道题的概率是30%,条件概率P(B|A拔)=30%。通常一个班级里有20%的人是学霸,剩下80%是普通人,该人是学霸的概率是20%,用字母A表示某个人是学霸的事件,该事件可简写为P(A)=20%。分析这道特别难的选择题,让真正的学霸去做,有80%的人可以做对,这里按经验做个假设,很符合学霸的特征。
2025-07-02 12:56:28
546
原创 HTTPS安全传输时采用的顶级阳谋
《HTTPS安全通信原理:从纸条传情到网络加密》摘要 本文通过生动的情书传递案例,形象阐释了HTTPS加密原理。首先揭示对称加密(共享密钥)的密钥传输风险,继而引入非对称加密(公钥/私钥)解决密钥交换问题。针对中间人攻击,提出数字签名和CA证书机构验证机制,最终形成HTTPS的三层保护体系:1)CA认证公钥真实性;2)非对称加密传输会话密钥;3)对称加密保障通信安全。文章将复杂的加密技术转化为生活场景,揭示了HTTPS如何在全球网络环境中构建可信通信通道,体现了密码学工程化的智慧结晶。
2025-07-01 21:01:11
1086
原创 (八)聚类
摘要:聚类是无监督学习的核心任务,旨在将数据分组为簇(cluster),可用于探索数据分布或作为分类预处理。聚类性能度量包括外部指标(与参考模型对比)和内部指标(簇内紧凑、簇间分离)。距离计算需满足度量性质(如欧式距离),但非度量距离(如相似度)也有应用。聚类方法主要分三类:原型聚类(如K均值,适合椭球形结构)、密度聚类(如DBSCAN,适合复杂形状)和层次聚类(如AGNES,提供多粒度结果)。聚类无绝对标准,需根据实际需求选择或设计算法,现有方法可能无法满足新标准,需结合问题调整。(150字)
2025-06-29 19:07:20
614
原创 (七)集成学习
摘要: 集成学习(Ensemble Learning)通过结合多个模型提升性能,分为同质(相同模型)和异质(不同模型)集成。其核心在于个体模型需“好而不同”,即高精度且多样性。集成方法分为两类: 序列化方法(如Boosting):模型按顺序生成,后续模型侧重修正前序错误(如Adaboost、XGBoost)。 并行化方法(如Bagging):模型独立生成,通过投票或平均结合(如随机森林)。 实际应用中,集成学习效果显著(如竞赛常见XGBoost、随机森林),尤其在深度学习中结合特征提取与集成进一步提升性能。
2025-06-29 19:03:56
635
原创 超参数调整
摘要:深度学习模型训练中的超参数调整是影响性能的关键环节。超参数分为网络参数、优化参数和正则化参数三类,其中学习率、批样本数量最为重要。调整方法包括手动调优(激活函数选择、BatchSize调整、学习率衰减策略)和自动调参(网格搜索、随机搜索、贝叶斯优化)。实践表明,合理设置初始学习率、采用适当正则化方法对模型效果影响显著。优化过程中需结合数据质量和模型表现综合分析,建议优先使用ReLU激活函数,BatchSize设为32/64的倍数。自动调参方法能有效提高效率,但理解各参数作用仍是优化基础。
2025-06-26 15:14:56
737
原创 开启GPU并行加速
本文介绍了使用PyTorch实现GPU加速的步骤:1)确认环境配置(Python 3.9+Torch 1.12.0+CUDA 11.3);2)将数据和模型加载到GPU,需安装支持GPU的PyTorch版本;3)通过设置device变量并添加.to(device)将数据和模型转移到GPU。示例代码展示了CPU和GPU两种版本的对比,以及如何检查变量和模型的存储位置。需要注意的是,不在同一设备(GPU/CPU)上的数据和模型无法进行计算。
2025-06-26 15:10:30
489
原创 深度学习正负样本比例的影响及其调节方法
本文探讨了深度学习中二分类问题的正负样本比例对模型性能的影响及调节方法。不平衡样本会导致模型偏向多数类,影响评估指标和收敛速度。文中介绍了两种主要调节方法:1)数据采样技术(上采样和下采样),并给出了Python代码示例;2)加权损失函数方法,演示了Keras实现方式。此外,还展示了使用混淆矩阵评估模型表现的可视化方法。文章强调合理调整样本比例对提升模型性能的重要性,建议结合数据采样和加权损失函数来应对不平衡问题,并定期优化训练策略。
2025-06-26 15:06:08
1302
原创 模型的训练与评估
本文介绍了机器学习中数据集划分与模型评估的关键方法。在数据集划分方面,探讨了训练集、验证集和测试集的划分原则,重点讲解了K-Fold交叉验证及其改进方法(分层和嵌套交叉验证),以解决数据量不足和样本不平衡问题。在模型评估方面,详细阐述了混淆矩阵、准确率、精确率、召回率和F1值等指标,并深入分析了ROC曲线与AUC值的计算原理及其在分类器性能评估中的应用。此外,还比较了ROC曲线与PR曲线的区别与联系,指出ROC曲线关注整体样本表现,而PR曲线更注重目标样本的识别效果。这些方法为机器学习模型的训练和评估提供了
2025-06-26 15:01:51
643
原创 (一)机器学习模型训练入门
机器学习模型训练入门摘要 机器学习基础概念 定义:通过经验改善系统性能,利用计算机系统分析数据 核心任务:智能数据分析,强调计算机算法处理 模型训练流程 输入:带标记的训练数据(如西瓜分类示例) 训练过程:使用学习算法从数据中产生模型 模型应用:处理新数据(unseen instance) 关键理论 PAC学习理论:概率近似正确框架 NFL定理:没有通用的最优算法 独立同分布假设:数据来自同一未知分布 核心问题 过拟合与欠拟合:U形性能曲线 评估方法:留出法、交叉验证、自助法 性能度量:查准率、查全率、F值
2025-06-26 14:54:51
451
原创 机器学习的分类(监督学习、非监督学习、半监督学习)
机器学习大致可分为三类:监督学习、非监督学习、半监督学习,下面我们就来分别介绍。机器学习是人工智能的核心领域之一,而根据学习过程中使用的标签数据的不同,机器学习主要分为三大类:监督学习(Supervised Learning)、(Semi-supervised Learning)和无监督学习(Unsupervised Learning)。
2025-06-24 21:53:47
1095
原创 数字签名&CA数字证书
其实CA也需要数字证书来证明自己的身份,因此会把这把公钥放在自己的数字证书里面,按照数字证书的生成原理,这份数字证书同样也需要另外一把私钥来进行签名,这就需要再加一层,也就是根CA。继续刚才的步骤,浏览器查看这份中间证书的颁发者,发现这里的公用名是User Trust RSA Certification Authority,此时就需要找找电脑里面有没有它的证书,最后成功找到这份根证书,并且提取里面的公钥来验证中间证书的签名。此外,若网站服务器的私钥泄露,并已向CA申请证书的吊销,浏览器如何得知此事呢?
2025-06-12 16:48:41
629
原创 http与https
先来观察这两张图,第一张访问域名中国铁路12306网站,谷歌浏览器提示不安全链接,第二张是中国铁路12306网站,浏览器显示安全,为什么会这样子呢?2017年1月发布的Chrome 56浏览器开始把收集密码或信用卡数据的HTTP页面标记为“不安全”,若用户使用2017年10月推出的Chrome 62,带有输入数据的HTTP页面和所有以无痕模式浏览的HTTP页面都会被标记为“不安全”,此外,苹果公司强制所有iOS App在2017年1月1日前使用HTTPS加密。
2025-06-12 15:47:38
861
原创 你管这玩意叫网络?网络图解
因此,可能会显示旧的IP地址。新设备想要租用IP地址,但不知道谁是DHCP服务器,因此从0.0.0.0发送,并用255.255.255.255进行广播,MAC地址为新设备的地址作为原地址,并使用MAC的广播地址作为目标地址。,我们把电脑的网线分别插入交换机的端口上, 两台设备第一次进行通信时,交换机会通过ARP广播给所有设备,找到目标MAC地址后,交换机会将这次通信的两台设备的MAC地址记录进MAC地址表中,以后再通信时交换机会先查看MAC地址表,如果有目标MAC信息就会直接发送给对应设备;
2025-06-12 15:23:14
631
原创 沙箱&虚拟化技术&虚拟机&容器之间的关系详解
虚拟化技术,使用逻辑来表示资源,从而摆脱物理限制的约束,提高物理资源的利用率。虚拟机、容器、JVM都是在计算机不同的层面进行虚拟化,都属于虚拟化技术的一种表现。虚拟机是位于硬件与操作系统之间的虚拟化技术,是对硬件的虚拟;容器是是位于操作系统与函数库之间的虚拟化技术,是对操作系统的虚拟;JVM是位于函数库与应用程序之间的虚拟化技术,是对函数库的虚拟;沙箱是一种安全隔离的理论框架,而虚拟机、容器、JVM都可以看作是这种理论框架通过虚拟化技术的不同实现方式。
2025-06-09 17:11:07
862
原创 VSCode无法转到定义python源码(ctrl加单击不跳转)
经过测试,这个ms-python.python-2025.6.1-win32-x64文件夹跟VSCode中的python插件有关,我删掉这个文件夹发现python插件故障了。打开 VS Code 的 "Output" 面板,选择 python查看是否有任何错误日志。3.检查代码索引(重新加载窗口之后好了一下,之后再转到源码就一直在转了)我怀疑这个报错原因还是在于VSCode中的python插件。,然后从列表中选择正确的 Python 解释器。,然后选择当前使用的解释器以确保它被正确识别。
2025-05-30 21:59:09
1208
原创 MCP & A2A
我们目前在配置Cursor中的MCP时,本质是在配置MCP Server,这些Server是由不同的开发者提供的,他们基于标准化的MCP协议,做了个小的服务,这些服。在MCP的概念中,Cursor属于一个MCP的宿主应用(Host-app),而Cursor之所以能使用MCP服务,是因为它内置安装了MCP Client。2、SSE(Server-Sent Events):主要用在远程通信服务上,这个服务本身就有在线的 API,比如访问你的谷歌邮件,天气情况等。
2025-05-14 10:41:19
788
原创 我的MCP相关配置记录
Cline和CheeryStudio中的MCP配置展示了多种服务器和工具的集成,涵盖了从GitHub管理、文件系统操作到浏览器自动化等多个方面。Cline的MCP配置包括GitHub、FileSystem、SequentialThinking、Fetch、FireCrawl、Puppeteer等服务器,而CheeryStudio则配置了fetch-server、amap-maps、sequential-thinking、firecrawl、puppeteer等。此外,Cline发布了MCP Marketpl
2025-05-13 20:00:08
881
原创 CentOS扩容磁盘大小
第一步:先在VMware上点击扩容原磁盘扩容 图第二步:在系统中扩容使用 df -PT 和 lsblk 命令查看当前空间分配情况可以看到,当前总空间20G,sda磁盘分配了2个主分区(sda1,sda2),其中sda2分区的centos-root逻辑卷挂载的是 / 目录,已经快满了,需要对centos-root逻辑卷扩容。我采用了这篇博客的解决方法中提到的,
2025-03-04 22:31:12
566
原创 在Linux上启动elasticsearch报错
在使用root权限启动ElasticSearch的时候,会出现开篇所示的错误信息,这是出于系统安全考虑设置的条件。处理方法:使用ES自带的jdk,修改elasticsearch-7.8.0/bin/elasticsearch-env文件中的这行配置即可。(修改完别忘记分发!处理方法:创建一个普通用户,将ElasticSearch安装目录权限修改一下,切换至普通用户运行ElasticSearch。这不算错误,而是个提示。这是因为ES默认是使用你自己的jdk1.8,它嫌弃版本太低,想让你更新jdk11版本。
2024-12-25 18:56:06
362
原创 ERROR (org.apache.spark.executor.Executor:logError) - Exception in task 0.0 in stage 2.0 (TID 8)
我分别查看了业务数据与日志数据的生成器配置文件发现,在日志数据中,我设置的会员最大值是1000 > 在业务数据中,我设置的生成新用户的数量是100,才造成redis在读uid的时候报空指针异常的。向上推理,如果160行中提取性别为空的话,那说明158行Json字符=>Json对象就没有转换成功,所以才get不到gender的;1.在redis中没做(用户信息表user_info的)历史数据的全量同步。修改成,日志数据中会员最大值 <= 业务数据中生成新用户的数量,问题解决。所以,我应该是第二个原因。
2024-12-22 15:43:57
737
原创 如何保证业务数据实时计算的顺序性
2.通过运行SparkRDD代码,将原始业务数据根据表名分为事实数据(需要记录操作类型)和维度数据,分别将事实数据分流到Kafka的Topic中,维度数据分流到Redis中。我们依次审视一下,在实时处理的各个环节中,是否能保证数据的顺序?在实时计算中,对业务数据的计算,要考虑到数据处理的顺序, 即能否依照数据改变。已经完成了业务数据的采集与分流基本工作量,业务数据分事实数据(事实表)和维度数据(维度表)。是在哪个环节出的问题,最终导致存储的结果不正确。通过分析,目前我们的计算过程中,只有可能在。
2024-12-21 15:32:39
441
原创 Maxwell全量同步历史数据报错Connections could not be acquired from the underlying database!
重新启动Maxwell、 maxwell-bootstrap(重新启动maxwell-bootstrap之前需要先启动maxwell,不然会报数据阻塞)删除jdk.tls.disabledAlgorithms后面的TLSv1和TLSv1.1,然后保存退出。解决方法:修改jdk的jre目录下配置文件。#进入到自己jdk安装目录。
2024-12-21 13:56:23
340
原创 kafka消息发送缓冲区问题解决
针对Kafka漏消费与重复消费问题,已经采用后置提交offset+幂等方案,解决Kafka漏消费与重复消费。自定义一套offset管理方案,手动提交offset,将kafka的offset保存到Redis中存储。但是手动提交offset的话又会出现kafka消息发送缓冲区问题。问题描述Kafka 消息的发送分为同步发送和异步发送。Kafka默认使用异步发送的方式。Kafka的生产者将消息进行发送时,会先将消息发送到缓冲区中,待缓冲区写满或者到达指定的时间,才会真正的将缓冲区的数据写到。
2024-12-17 19:17:49
320
原创 Kafka漏消费与重复消费的解决方法
已经完成了(实时计算)日志数据采集和分流,采用方式2的方法直接将模拟生成的数据传入Kafka的Topic1中,然后通过跑Scala代码将原始数据进行分流,分成5类数据并写入对应5个Topic中。这样就做到前面的成功,如果后面做失败了,就回滚前面那么就达成了原子性,这种情况先存数据还是先修改偏移量没影响。出现丢失或者重复的问题,核心就是偏移量的提交与数据的保存,不是原子性的。话虽如此,在实际的开发中手动提交偏移量其实不难,难的是幂等性的保存,有的时候。处理数据较多,或者数据保存在不支持事务的数据库上。
2024-12-17 13:46:17
772
原创 区块链技术学习笔记
像比特币这样的数字货币,依靠已经写好的程序代码自动发行的,对于区块链,比特币每10分钟就会挖出来一个新区块,程序代码就会奖励比特币给挖出这个新区块的人,从2009年1月3日年开始是一个区块给50,经过四年折半依次,在2020是第三次减半,每个块区奖励6.25个比特币。比特币的定位就是一个点对点的电子现金系统,比特币和区块链技术出现之后,实现了分布式的点对点(P2P)的双方直接交易,打破了以前线上交易必须依赖于第三方中心数据库的弊端,具备安全、隐私、可追溯、交易不可篡改的特性。公共数据运营平台如何构建?
2024-12-09 19:24:05
736
原创 数据沙箱技术Sandbox
数据沙箱是一种用于隔离和管理数据分析环境的虚拟环境。数据沙箱是一种隔离环境,它允许用户在其中运行程序和处理数据,而不会影响到外部系统或数据的安全性。通过使用虚拟化技术、访问控制技术和防躲避技术,数据沙箱能够确保可疑文件或程序在隔离环境中运行,从而保护主机和操作系统免受病毒和未知威胁的侵害。利用虚拟化技术在本地或云端构建数据隔离环境(即“数据沙箱”),允许用户在沙箱内对数据进行分析处理,但原始数据始终保持在安全边界内。沙箱是一种用于隔离和管理网络环境的虚拟环境。
2024-12-09 19:05:11
7037
原创 推荐一款JAVA企业级超轻量大数据计算平台
至轻云是一款超轻量级、企业级大数据计算平台。具有一键部署,开箱即用特色。无需额外大数据组件安装,即可快速实现企业级大数据离线ETL、实时计算、作业定时调度等场景。项目持续更新迭代,源码永久开源免费。助力企业快速处理海量数据,获得更多商业价值。
2024-12-09 17:23:02
719
原创 (参考案例)腾讯天穹 SuperSQL:统一大数据自适应计算平台技术解析
本节首先介绍一下大数据普惠时代的业务困扰。首先,因历史原因,不同业务部署到不同的数据库(如 Hive、MySQL 等)上,异构数据源逐渐成为各公司数据孤岛形成的原因。其次公司内不同的数据中心有不同的集群,会存在不同版本的数据源。因为业务的发展,数据中心会部署很多不同的大数据处理引擎,但每个引擎适用的业务场景和技术特性不一样,这导致只能人工做数据搬迁和查询调优,数据安全和效率都难以保证。另外,不同的大数据引擎语法不一样,这导致切换引擎的成本升高,会造成一定的资源浪费。
2024-12-09 17:16:30
1124
原创 大数据计算引擎原理和架构
随着互联网技术的广泛应用,5G以及物联网和云计算的迅猛发展,带动了全球数据爆发式增长,随之而来的是不断增长的数据规模和数据的动态快速产生,这对大数据计算引擎带来了极大的挑战,离线批处理、实时计算和高吞吐量催生了新技术的发展和旧技术的革新,计算引擎出现了百花齐放的景象。计算引擎大致分两类,离线计算和实时计算,下面为大家介绍几个主流的大数据计算引擎。
2024-12-09 17:03:33
1751
原创 大数据平台之数据存储
我们都知道,采集数据之后,得到数据是原始的和杂乱的,必须经过专门的清洗、 关联、规范化和精心的组织建模,而且要通过数据质量检测后才能进行后续的数据分析或用于提供数据服务,而这就是数据平台构建的关键环节-->数据存储处理而我们今天要聊的是大数据平台是如何去存储海量数据呢?在之前,我们聊过,大数据的数据采集并存储的数据流程,如下图所示:在整个大数据生态圈里,数据存储可以分为两大类:1、是直接以文件形式存放在分布式文件系统上,处理工具可以直接读写 (Hive 和SparkSQL 都是这类)。
2024-12-09 16:37:03
2015
原创 大数据平台之数据计算
离线处理和批处理是大数据计算中,非常必要的两条腿。也是大数据平台的核心所在。因此,学好大数据计算组件的重要性不言而喻。由于工作原因,一直在接触flink的流批一体计算建设,所以我在自己的大数据平台研发中,思考过是否用flink来完成流批一体的数据开发模块。祝各位终有所成,收获满满!
2024-12-09 15:44:47
891
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人