时空摆渡者-CSDN博客

原创【论文精读】node2vec: Scalable Feature Learning for Networks

本文是我参加Datawhale的CS224W图机器学习时的笔记，第一次学习图机器学习，对node2vec的理解。node2vec也是在DeepWalk和LINE基础上，同样借助自然语言处理领域的词嵌入思想。主要改进了DeepWalk僵硬的随机游走节点选择策略，提供了可以调参的节点选择策略。可以捕捉到节点的同质社群信息和功能角色信息

2023-02-26 22:19:36 890

原创【论文精读&实战】DeepWalk: Online Learning of Social Representations

本文是我参加Datawhale的CS224W图机器学习时的笔记，第一次学习图机器学习，对DeepWalk这篇开山之作的理解。

2023-02-19 12:26:13 1878

原创 generator、iterable、iterator傻傻分不清楚

本文重点介绍Python中生成器和迭代器的概念、源码实现。从generator引入，然后介绍iterable和iterator，包括Python3判断对象是否为可迭代的方法、判断对象是否为迭代器。

2021-11-26 19:06:35 913

原创机器学习实战—KNN

主要介绍人工智能领域的分支——机器学习。机器学习的大致分类，详细解释了KNN算法的几个重要知识点

2021-02-08 21:14:00 631

原创计算机体系结构基础引言

PPT在我们的日常生活中经常会被用到，工作汇报、宣传演讲、授课讲座……都离不开它的参与，它的外表很简单，在键盘上轻轻一按或者在鼠标上轻轻一点，PPT就进入了下一页，然而在计算机内部，实现它的过程并不简单，一个简单的翻页涉及到了计算机方方面面的参与，它们构成了整个计算机体系结构

2020-08-26 13:35:08 770 1

原创 Java Web前后端分离项目—后端servlet实例

前后端分离，前端vue+axios。后端Tomcat服务器，mysql数据库。采用SpringMVC模式。servlet中用post方式接受前端传递的json数据并返回。完整解决方案，附带前端小姐姐方案链接

2020-05-07 18:55:51 5076 4

原创前后端对接及接口管理平台浅析

本文主要简略介绍前后端对接的接口概念。Tomcat的结构介绍。Fastjson及json的建议用法和接口管理平台NEI的介绍。

2020-04-29 14:24:29 3829

原创那些有趣的java—封装

封装是java学习中必不可少的概念，理解封装有助于加深学习影响。本文主要介绍封装思想，java中的包，this和static关键字以及代码块的含义

2020-04-05 11:18:40 563

原创 LAMP（Ubuntu 18.04）安装jdk13，Tomcat详细操作

本文主要介绍云服务器LAMP（Ubuntu 18.04）安装jdk13和Tomcat的详细步骤。其中Tomcat安装不需要手动配置环境变量

2020-03-21 11:19:11 1750 1

原创 java数据类型浅析之字符串（二）

一；不可变字符串String 两种创建方式第一种String handle = new String([string_content]);Handle句柄，[]表示可写可不写。我先分析一下这段代码1、new String;指的是在堆空间中创建一个String类型对象2、末尾的([string_content])；调用String类的构造方法初始化值为"string_content"...

2020-03-19 23:30:01 412 1

原创 java数据类型浅析（一）

非java方向的小伙伴们刚开始学习可能会遇到一些问题，我就把我刚开始学的时候遇到的问题总结一下，大家可以互相讨论。java数据类型浅析（二）数据类型分为除了字符型和布尔型，其他的基本数据类型都是有符号的。而且Java中的基本数据类型所占存储空间固定，不随操作系统的变化而变化。这使得java具有可移植性和平台无关性。（我们在网课上也学到了跨平台性，我认为这就是一种具体体现）这里在推荐大家...

2020-03-19 23:27:19 884 1

大型语言模型（LLM）的训练流程主要包括预训练、监督微调（SFT）和强化学习对齐（RLHF）三个阶段。预训练赋予模型海量知识和推理能力；SFT通过指令微调使模型理解用户指令，而非针对具体任务微调；RLHF则通过人类反馈优化模型输出。奖励模型（RM）作为RLHF的核心组件，通过人类标注的偏好数据（如排序式标注）训练，对模型输出进行评分。强化学习采用PPO算法，结合策略模型和参考模型，利用优势函数优化生成结果。整个流程旨在提升模型的有用性、诚实性和无害性，使其输出更符合人类偏好。

2025-06-29 10:46:18 1157

原创百面Bert

摘要： BERT基于Transformer的Encoder架构，采用预训练+微调范式，核心预训练任务为MLM（随机遮蔽15%的token并预测）和NSP（句子连续性判断）。微调时通过通用输入输出设计适配多任务，如使用<CLS> token表征句级语义。后续研究发现NSP任务效果有限（RoBERTa移除，ALBERT优化）。BERT在预处理阶段固定Mask模式，而变体改为动态Mask。Tokenizer采用BPE子词编码策略，词表大小影响性能和参数量。实验表明，动态Mask和优化任务设计可提升模型

2025-06-26 19:35:35 967

原创百面Word2vec

CBOW(Continues Bag of Words): 直译为“连续的词袋模型”。通过上下文预测目标词Bag of Words（BoW）: NLP中的一个经典模型，它将文本表示为一个词的集合，忽略词序，只关注词频。Continuous: 它是一个连续的向量表示（Continuous），而不是传统的离散词频统计Skip-gram: 根据当前词来预测上下文各词的生成概率。

2025-05-05 11:15:23 1166

原创推荐系统-排序模型-2

https://datawhalechina.github.io/fun-rec/#/ch02/ch2.2/ch2.2.4/DIN

2025-02-23 21:43:39 189

原创推荐系统-排序模型

本次学习的重点是FM系列和WideNDeep系列。其实这两个模型是存在因果关系的。从最初的LR模型开始，因为缺失高效的特征交互方式，产生了FM模型，即通过向量内积代替特征之间的两两交互的参数。最后DNN的引入可以建模更高阶的特征。但是DNN如何与FM相结合，有两种方式，分别是并行和串行，串行引出了FNN、PNN等模型，但是浅层的特征在高层的隐藏层起不到作用。所以WideAndDeep诞生，直接将浅层和深层结合。但是这样会缺失重点，因此采用FM代替浅层，得到DeepFM模型。

2025-02-20 22:17:34 302

原创推荐系统协同过滤召回算法概述

基于协同过滤的召回算法主要是应用在推荐环节的早期阶段，大致可以分为基于用户、基于物品的。两者各有优劣，优点是具有较好的可解释性，缺点是对于稀疏的交互矩阵，效果较差。无法挖掘用户和物品的深层关联。Swing算法虽然挖掘了用户和物品的关联网络，但是仍然是浅层的分析。基于矩阵分解SVD的算法一定程度解决了这个问题，通过将整个矩阵分解为用户和物品各自的向量，不仅解决了挖掘深度的问题，还可以融入属性信息。

2025-02-13 22:35:48 616

原创序列推荐算法概述

本文是Datawhale2025年2月推荐算法组队学习的学习心得，Task1。主要对序列推荐算法这一研究领域进行深度挖掘，列出了一些子研究方向，并给出了部分研究论文

2025-02-10 22:51:39 1273

原创 Transformer论文精读

Transformer：Attention is all you need ，介绍了论文中各章节的主要思想，本文是对李沐老师的视频的学习笔记和李宏毅老师的视频笔记

2024-06-09 09:51:41 947

原创图理论基础

本文是Datawhale图深度学习组队学习，主要介绍了图聚类系数的理论溯源，其知识点在论文中的出处

2024-04-15 10:26:25 835

原创 Logistic Regression

详细解释了Logistic Regression的原理，背景和损失函数、优化的目标函数、优化算法-梯度下降。以及包含上述概念的数学推导

2024-04-11 12:11:55 736

原创动态规划解决马尔可夫决策过程

本文介绍了动态规划思想应用于解决马尔可夫决策过程求解方法。包括策略迭代和价值迭代。以及在免模型情况下，使用蒙特卡罗和TD方法解决的思想

2024-01-24 10:44:12 2357

原创强化学习入门

本文介绍了强化学习基本概念和马尔可夫过程、马尔可夫奖励过程、马尔可夫决策过程的性质、奖励函数、回报、状态价值函数、Q函数以及其差别。

2024-01-18 00:03:56 1148

原创 Xtuner实战+LLM微调

本文介绍了基于Xtuner工具对InternLM模型进行微调，包括数据集的处理和配置文件的处理

2024-01-16 18:30:40 670

原创书生.浦语大模型LangChain实战

书生.浦语大模型结合LangChain和Gradio实战案例，传统大模型提升思路

2024-01-11 16:28:15 1193

原创书生.浦语大模型实战一

书生.浦语大模型的大致介绍以及开发平台的示例运行介绍

2024-01-09 23:23:29 1346

原创用于图节点分类的标签传播系列算法

本节是CSW224第一部分的最后一节（semi-supervised node classification），用一部分已知标签的节点去预测剩下的未知标签的节点。注意：半监督与监督学习不同，这里将已经学到的模型泛化到上，仅仅是对原图的剩余节点进行分类，因为在学习模型时，原图的未知标签的节点也可能用于训练。这种被称为，与之相对应的是。对于图神经网络，是可以做到归纳式学习。

2023-02-27 17:48:30 1919 2

原创机器学习-决策树

决策树系列算法介绍和实战，未完待续！决策树算法的大致流程如下：注：下图的数据集为后续操作的训练数据集特征是机器学习中自变量的别名。特征选择就是在一系列自变量中选择出对分类最有用的变量。特征选择是一个较大知识领域，主要目的是筛选出对项目目标有帮助的样本属性。在决策树中，特征选择有三大主流方法，分别是信息增益、增益率、基尼系数。其中信息增益和增益率都是由Quinlan创造的。参考西瓜书第十一章特征选择与稀疏学习信息增益参考文章随机事件x,发生概率的对数的相反数。或者随机事件x带给我们的信息量。用I(x)表示，单

2022-06-24 18:25:07 718 1

原创机器学习模型评估指标和调用方法

回归模型的评估指标有平均绝对值误差、均方误差、均方根误差、R平方值、Huber损失、Log-Cosh损失函数。也称L1损失（MAE）是预测值与真实值之差的绝对值，计算公式如下：MAE=1n∑i=1n∣fi−yi∣=1n∑i=1neiMAE = \frac{1}{n}\sum_{i=1}^n{|f_i-y_i|}=\frac{1}{n}\sum_{i=1}^n{e_i}MAE=n1i=1∑n∣fi−yi∣=n1i=1∑nei以下是sklearn中调用MAE的示例代码：均方误差也称L2损

2022-06-03 15:21:10 1345

原创 PyTorch模型构建指南

在这里，我们引入神经网络块的概念。块(block)可以描述单个层或、多个层组成的组件或者整个模型本身。可以通过递归的方式将一些块组合成更大的组件。从编程的角度来看，块由类（class）表示。它的任何子类都必须定义一个将其输入转换为输出的前向传播函数，并且必须存储任何必需的参数。注意，有些块不需要任何参数。最后，为了计算梯度，块必须具有反向传播函数。在定义我们自己的块时，由于自动微分（在 2.5节中引入）提供了一些后端实现，我们只需要考虑前向传播函数和必需的参数。在构造自定义块之前，我们先回顾一

2022-05-31 22:25:46 1933 1

原创 HDFS编程实践

接下来介绍Linux操作系统中关于HDFS文件操作的常用Shell命令，利用Web界面查看和管理Hadoop文件系统，以及利用Hadoop提供的Java API进行基本的文件操作。在学习HDFS编程实践前，我们需要启动Hadoop。执行如下命令，开启和守护进程。启动时可能会有 WARN 提示 “WARN util.NativeCodeLoader…” 如前面提到的，这个提示不会影响正常使用。启动完成后，可以通过命令来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”Dat

2022-05-31 22:21:22 1976

原创 labelme&labelImg

图像标注工具labelme&labelImg安装介绍

2022-05-31 22:13:37 2317

原创 Paddle极简方案快速构建手写数字识别模型-V1

通过paddle paddle提供的基础API搭建一层神经网络，用于识别MNIST数据集，准确率25%，此为极简方案，目的是让同学们快速入手深度学习框架的使用。主要涉及数据处理、模型设计、训练和测试

2022-05-31 22:12:52 1509 2

原创 Git分支管理

本文参照廖雪峰Git教程，在原作基础上进行些许删改，案例的替换。

2022-05-31 22:05:15 3410

原创 Git远程仓库

介绍了Git本地仓库如何与第三方Git托管平台-码云进行联动，以及SSH协议的部分介绍

2022-05-31 22:04:14 5976

原创 Git基本命令＜一＞

本文目录结构参考廖雪峰Git教程，内容在原文基础上有所删改。以总结记录为主

2022-05-31 22:03:27 292

原创 Git分布式版本管理系统前世今生

从版本管理系统的前世今生入手，进而介绍Git的起源和历史，结合参考文献资源的引用，特别是对Linux Torvalds的原文采访的引用。

2022-05-31 22:02:24 661

原创机器学习-模型评估与选择

本文基于DataWhale集成学习第二章：机器学习基础内容和周志华老师的《机器学习》第二章模型评估与选择整合而来，主要介绍了模型评估与选择的目的、方法和步骤。其中训练误差和测试误差、偏差和方差的均衡介绍了有关测试误差的内在关联。估计测试误差介绍了直接估计和间接估计两种方法。在测试误差能够被合理的估计出来以后，我们做特征选择的目标就是：从p个特征中选择m个特征，使得对应的模型的测试误差的估计最小。介绍了最优子集选择和向前逐步选择。以及压缩估计（正则化）和降维（PCA）

2022-05-31 21:11:26 558

原创天池工业蒸汽量预测-模型调参

本文改编自《阿里云天池大赛赛题解析-机器学习篇》工业蒸汽量预测的模型调参。进行了部分素材的替换和知识点的归纳总结。新增了Datawhale8月集成学习中的网格搜索、随机搜索的内容

2021-10-19 17:54:37 641

原创天池工业蒸汽量预测-模型验证

本文改编自《阿里云天池大赛赛题解析-机器学习篇》工业蒸汽量预测的模型验证。进行了部分素材的替换和知识点的归纳总结。新增了周志华-《机器学习》中的模型评估，以及Datawhale8月集成学习中的偏差与方差的均衡。新增了Lasso和岭回归的调用方法

2021-10-18 22:16:36 997

同源策略详细介绍文档

**同源策略**是指在[Web浏览器](https://zh.wikipedia.org/wiki/排版引擎)中，允许某个网页[脚本](https://zh.wikipedia.org/wiki/腳本)访问另一个网页的数据，但前提是这两个网页必须有相同的[URI](https://zh.wikipedia.org/wiki/统一资源标志符)、[主机名](https://zh.wikipedia.org/wiki/主機名稱)和[端口号](https://zh.wikipedia.org/wiki/通訊埠)，一旦两个网站满足上述条件，这两个网站就被认定为具有相同来源。此策略可防止某个网页上的恶意[脚本](https://zh.wikipedia.org/wiki/脚本)通过该页面的[文档对象模型](https://zh.wikipedia.org/wiki/文档对象模型)访问另一网页上的敏感数据。

2020-05-07

LAMP18.04下javaweb项目用JDBC连接mysql5.7.28失败,报错java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

2020-04-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人