自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 XJTLU 西浦ICS学习资料与心得体会分享(持续更新中)

由于本人目前是大三,所以目前课程只能更新到大三,能力有限哈哈~本人水平也不是很高,只是个底层半奖罢了,学习ics纯属于喜欢计算机,喜欢编程,喜欢玩游戏罢了我觉得无论是选专业还是如果你选好了专业也要再选择一个方向,这些选择都是以兴趣为主,兴趣是最好的老师,有兴趣你才有学习下去的动力,如果我遇到我感兴趣的问题或者平时遇到一些程序上的bug我一般都会熬夜把问题解决,这是我个人的习惯,这个时候的我是不会感到疲惫的,当然这不是说如果你遇到问题一定要立马解决,如果这个问题很大的话我也会分几次再解决。

2024-09-30 15:06:29 4696 1

原创 INT301 生物计算(神经网络)Coursework 解析(知识点梳理)

本文对于2025-2026学期的INT301的Coursework进行了分享,希望通过分享帮助大家快速复习这门功课的关键知识点。

2026-01-29 17:17:21 598

原创 INT303 Big Data Analysis 大数据分析 Pt.12 推荐系统(Recommendation Systems)

推荐系统旨在解决信息过载问题,通过分析用户偏好从海量内容中筛选个性化推荐。本文介绍了推荐系统的三种类型,重点探讨了基于内容的推荐方法。基于内容的系统通过构建物品画像(如TF-IDF特征向量)和用户画像(加权平均偏好),利用余弦相似度计算匹配度。该方法依赖物品自身特征(如电影演员、类型)而非用户评分,能有效解决冷启动问题但存在内容局限。文中还阐述了效用矩阵、推荐评估等核心概念,为个性化推荐提供了理论基础。

2026-01-07 18:43:13 856 2

原创 INT303 Big Data Analysis 大数据分析 Pt.11 模型选择和词向量(Word Embeddings)

本文探讨了机器学习中的模型选择问题,重点分析了如何通过合理的数据集划分和交叉验证来评估模型泛化能力。文章指出仅依赖训练误差会导致过拟合,提出应使用测试集和验证集进行评估,并详细介绍了K折交叉验证和留一法两种验证技术。同时强调模型选择应考虑复杂度因素,引入奥卡姆剃刀原则和悲观误差估计方法,通过多项式回归和决策树案例说明如何在模型精度和复杂度间取得平衡。最后提供了Python实现交叉验证的代码示例,为模型选择提供了系统的方法论指导。

2026-01-05 03:09:58 704

原创 INT305 Machine Learning 机器学习 Pt.11 循环神经网络(RNN,Recurrent Neural Network)

本文回顾了四种经典神经网络模型:AlexNet、VGGNet、GoogleNet和ResNet,重点分析了它们的结构特点和性能表现。AlexNet首次引入ReLU激活函数和数据增强技术;VGGNet采用3x3小卷积核堆叠结构;GoogleNet通过Inception模块实现多尺度特征提取;ResNet利用残差连接解决了深度网络退化问题。随后文章转向循环神经网络(RNN),详细介绍了RNN的多种架构类型(一对一、一对多、多对一、多对多)及其在序列数据处理中的应用优势,特别指出RNN通过隐藏状态传递时序信息的核

2026-01-04 04:49:06 1073

原创 INT301 Bio-computation 生物计算(神经网络)Pt.10 联想存储器与HOPFIELD网络

联想存储器是一种内容可寻址的存储结构,能够通过输入模式直接匹配并回忆相关数据,而不依赖物理地址。它分为自联想和异联想两种类型:自联想存储器的输入输出模式相同,用于纠正错误或补充不完整信息;异联想存储器的输入输出模式不同,实现跨模式关联。联想存储器的核心功能包括通过部分或不完整模式回忆完整信息,其学习算法类似Hebbian规则,通过累加输入输出向量的外积计算权重矩阵。虽然主项能实现正确联想,但串扰项可能影响准确性。这种存储方式在数据修复、模式识别等领域具有重要应用价值。

2025-12-04 17:50:23 879 1

原创 INT303 Big Data Analysis 大数据分析 Pt.10 分析模型和混合模型

本文介绍了两种经典分类方法:最近邻分类器和支持向量机(SVM)。最近邻分类器是基于实例的惰性学习器,通过计算测试样本与训练样本的距离,选取k个最近邻进行投票分类。其性能受k值选择影响,k值过小易受噪声干扰,过大可能降低准确性。SVM则是通过寻找最大化间隔的超平面实现分类,其核心是最小化||w||²/2的优化问题。两种方法各有特点:最近邻分类器实现简单但计算量大,SVM能处理高维数据但对核函数选择敏感。文中还详细阐述了距离计算、k值选择、间隔最大化等关键技术细节。

2025-12-02 03:41:09 1238

原创 INT301 Bio-computation 生物计算(神经网络)Pt.9 自我组织特征映射(Self-Organizing Fearure Map)

自我组织映射(SOM)是一种模拟大脑神经元自组织特性的无监督学习算法。它通过竞争学习机制将高维输入数据映射到低维(通常二维)离散空间,同时保持输入数据的拓扑结构。SOM算法包含三个核心过程:竞争(选择最佳匹配神经元)、合作(激活邻近神经元)和突触适应(调整权重)。这种机制使得相似输入在输出空间中彼此靠近,形成有序的特征映射(如音调映射、视网膜映射等)。SOM通过"墨西哥帽"函数实现短程兴奋和长程抑制,可用于数据降维和模式识别,广泛应用于数据可视化和特征提取领域。

2025-11-30 02:12:15 994

原创 INT305 Machine Learning 机器学习 Pt.10 k-Means 和 EM 算法

摘要: 聚类是一种无监督学习技术,通过将相似数据点分组形成簇。K-means算法是常用聚类方法,通过交替最小化数据点到簇中心的平方距离来优化簇划分。算法包括初始化簇中心、交替执行分配步骤(将数据点分配至最近簇中心)和拟合步骤(更新簇中心为簇内均值)。K-means可应用于向量量化(压缩图像颜色)和图像分割(生成超像素)。其核心思想是固定一个变量优化另一个变量,直至收敛。

2025-11-28 02:34:06 1134 2

原创 GPU(CUDA) 版 Pytorch 安装教程

PyTorch GPU版安装指南:本文详细介绍了如何安装支持GPU加速的PyTorch框架。首先需确认电脑配备NVIDIA显卡并安装对应驱动,通过nvidia-smi命令检查CUDA支持版本。随后下载与PyTorch版本匹配的CUDA工具包(如12.4版本),并完成安装配置。建议使用Anaconda管理Python环境,文中提供了官网和清华镜像两种下载方式。安装GPU版PyTorch后,系统会自动在无GPU时切换至CPU模式。该教程适用于已安装CPU版PyTorch或直接安装GPU版的用户,能显著提升深度学

2025-11-26 02:48:49 1904

原创 CPU 版 Pytorch 安装教程

PyTorch是一款由Facebook开发的深度学习框架,支持动态计算图和GPU加速。本文介绍了通过Anaconda安装PyTorch CPU版本的详细步骤:1)推荐使用Anaconda管理Python环境,提供官网和清华源两种下载方式;2)详细图解Anaconda安装过程及环境变量配置;3)强调安装前需检查Python版本兼容性(推荐3.10版本)。安装完成后可通过命令行验证conda是否配置成功。全文包含完整安装指引和常见问题解决方案。

2025-11-24 18:08:30 2477

原创 INT301 Bio-computation 生物计算(神经网络)Pt.8 主成分分析(PCA)与无监督学习

本文介绍了矩阵特征值与特征向量的基本概念及其性质。对于方阵A,若存在非零向量v和标量λ满足Av=λv,则v称为特征向量,λ为特征值。文中通过具体示例展示了特征向量的几何意义和计算方法,并指出对称矩阵的特征向量具有正交性。特别地,实对称矩阵的特征值为实数,正半定矩阵的特征值非负。文章详细推导了2×2矩阵的特征值求解过程,并阐述了矩阵对角化分解S=UΛU⁻¹的原理,其中U由特征向量构成,Λ为特征值对角矩阵。最后说明实对称矩阵可分解为S=QΛQᵀ,其中Q是正交矩阵,其列向量为归一化特征向量。

2025-11-22 23:44:05 1038 3

原创 INT305 Machine Learning 机器学习 Pt.9 Probabilistic Models(概率模型)

本文介绍了机器学习中的模型与损失函数,重点讨论了伯努利分布下的最大似然估计方法。通过硬币抛掷实验(55次正面/45次反面),建立了伯努利模型并推导出最大似然估计公式θ̂=NH/(NH+NT)。同时揭示了最大似然估计与最小化交叉熵的等价关系。在分类方法部分,对比了判别式方法(直接建模p(t|x))和生成式方法(建模p(x|t)),并以垃圾邮件分类为例,详细阐述了朴素贝叶斯分类器的原理,包括词袋模型表示和基于贝叶斯定理的后验概率计算过程。文章通过具体案例展示了从概率模型构建到参数估计的完整机器学习流程。

2025-11-21 22:38:47 1018 5

原创 INT303 Big Data Analysis 大数据分析 Pt.9 大数据分析模型

摘要:本文系统介绍了监督学习的概念与方法。监督学习分为回归(连续目标变量)和分类(离散目标变量)两类。回归分析重点讲解了线性回归模型(包括一元和多元)、异常值处理、数据标准化以及系数解释;分类部分阐述了二分类问题的建模流程和实际应用场景。文章详细说明了监督学习的完整流程:数据划分、模型训练、性能评估和新数据预测。通过税务欺诈检测等实例,展示了分类模型在真实场景中的应用价值。文中还探讨了模型解释、显著性检验等关键问题,为机器学习实践提供了系统指导。

2025-11-20 17:43:56 1175

原创 INT301 Bio-computation 生物计算(神经网络)Pt.7 时间序列预测、循环神经网络(Recurrent Neural Network,RNN)

本文介绍了时间序列的基本概念、模型和应用。时间序列是按时间顺序排列的观测数据,常见于股票价格、温度读数和脑电图等领域。文章阐述了时间序列建模方法,包括统计特性和平稳性假设,以及如何通过采样将连续信号离散化。重点讨论了时间序列预测问题,分析其重要性、应用场景和挑战。详细介绍了使用人工神经网络进行时间序列预测的方法,包括输入数据预处理、网络结构和训练过程。最后,文章对比了静态网络和动态网络的特点,指出动态网络在序列数据处理中的优势,如状态维护和长期依赖关系捕捉能力。

2025-11-12 18:02:37 1196

原创 INT305 Machine Learning 机器学习 Pt.8 Bagging 和 Boosting

本文介绍了集成学习方法Bagging和Boosting的原理与应用。Bagging通过有放回采样生成多个训练集,训练多个模型后取平均预测值,主要降低模型方差而不改变偏差,适用于决策树等模型。Boosting则顺序训练分类器,每次重点关注前一轮分类错误的样本,通过加权训练集逐步降低模型偏差(如AdaBoost)。随机森林作为Bagging的改进,通过特征随机选择降低模型间相关性。分析表明,Bagging和Boosting分别从方差和偏差角度优化模型性能,其中随机森林因其高效稳定成为常用算法,而Boosting

2025-11-12 14:05:04 854

原创 INT303 Big Data Analysis 大数据分析 Pt.8 聚类

聚类是一种将相似数据对象分组的数据分析方法,旨在发现数据中的自然模式和内在结构。聚类问题涉及定义距离度量(如欧几里得距离、余弦距离等)来衡量对象间的相似性,并处理高维数据面临的"维度诅咒"挑战。主要应用包括星系分类、音乐推荐和文档主题分析等。聚类方法分为层次聚类(自底向上或自顶向下)和点分配聚类,其中凝聚型层次聚类通过反复合并最近聚类来构建层次结构,在非欧几里得空间则使用"簇心"代替质心。聚类结果可视化常用树状图表示。

2025-11-11 18:07:42 1269

原创 INT301 Bio-computation 生物计算(神经网络)Pt.6 径向基函数网络(Radial-Basis Function Networks)

摘要: 径向基函数网络(RBF网络)是一种基于曲线拟合思想的神经网络,通过径向基函数(如高斯函数)构建插值表面来学习输入与输出的映射关系。RBF网络由输入层、隐藏层和输出层组成,其中隐藏层应用非线性变换将数据映射到高维空间,输出层进行线性组合。网络通过伪逆法计算权重,利用高维空间中的线性可分性解决复杂非线性问题。与正则化网络相比,RBF网络通过减少基函数数量提高计算效率,避免大规模矩阵求逆问题,适用于分类、预测等任务,具有快速学习和高精度逼近的优势。高斯RBF因其局部性和生物学合理性成为常用选择。

2025-11-11 00:54:40 1417

原创 INT305 Machine Learning 机器学习 Pt.7 决策树&偏差方差分解(Decision Trees & Bias-Variance Decomposition)

决策树是一种直观且强大的机器学习算法,通过一系列规则(如"如果-那么")进行分类或回归。它由内部节点(测试特征)、分支(基于特征值)和叶节点(预测结果)组成,适用于分类(离散输出)和回归(连续输出)任务。决策树通过贪心算法构建,选择能最大程度减少损失的特征和分割点。熵用于量化不确定性,信息增益衡量特征对不确定性的减少。尽管决策树是通用函数逼近器,但找到最优树是NP完全问题,需平衡训练精度与泛化能力以避免过拟合。

2025-11-07 17:34:28 720

原创 INT305 Machine Learning 机器学习 Pt.6 卷积神经网络(Convolutional Neural Network)

摘要:本文探讨了计算机视觉中的语义鸿沟问题,即人类与计算机在图像理解上的差异。计算机将图像视为三维像素数组,面临视角变化、光照变化、形变、遮挡、背景杂乱和类内变化等识别挑战。为解决这些问题,文章介绍了基于数据驱动的图像分类器构建方法,包括数据集收集、分类器训练和性能评估。重点阐述了卷积神经网络(CNN)的结构,包含输入层、卷积层、池化层、归一化层、全连接层和输出层。详细说明了卷积层的工作原理,包括卷积核操作、特征图生成和激活函数应用,展示了CNN如何通过多层卷积逐步提取从简单到复杂的图像特征。

2025-11-06 21:39:47 1197

原创 INT305 Machine Learning 机器学习 Pt.5 神经网络(Neural network)

本文介绍了神经网络的基本原理和运算过程。首先阐述了从线性模型到多层神经网络的演化,重点讨论了Sigmoid、tanh、ReLU等多种激活函数的特点及其数学表达式。随后详细解析了神经网络的三大组成部分(输入层、隐藏层、输出层)和全连接架构。通过Python代码示例展示了前向传播的计算流程,包括权重矩阵运算和激活函数应用。文章深入讲解了损失函数(SVM损失和正则化项)的计算方法,并通过具体数值示例演示了反向传播中梯度计算的关键步骤,特别是链式法则在梯度下降优化中的应用。最后以一个包含Sigmoid函数的复合函数

2025-11-05 07:14:17 483 2

原创 INT303 Big Data Analysis 大数据分析 Pt.7 降维

本文探讨了交互项和高维数据在回归分析中的应用与挑战。针对纽约出租车与优步费用比较的案例,分析了交互项可能导致的过拟合问题,以及大数据场景下的计算复杂度。文章指出,23个预测变量将产生830万可能的交互项,远超10万观测值的估计能力。 为解决这些问题,提出了增加数据量、选择理论相关交互项、使用正则化和PCA降维等策略。特别详细介绍了主成分分析(PCA)方法,阐释其通过线性变换将高维数据转换为低维正交主成分的数学原理,从而保留最大数据方差的同时降低模型复杂度。

2025-11-04 05:33:31 1159

原创 INT303 Big Data Analysis 大数据分析 Pt.6 支持大数据处理的基础设施

本文介绍了大规模计算系统的架构与关键技术。主要内容包括:1)单节点与集群架构的组成特点,集群通过高速网络连接实现并行计算;2)分布式文件系统的基本原理,包含块服务器、主节点和客户端库,支持数据分块存储与副本容错;3)MapReduce编程模型,通过Map映射、按键分组和Reduce归约三步骤实现分布式计算,框架自动处理故障与并行调度。这些技术共同解决了海量数据处理中的存储、计算和容错问题,典型实现包括Hadoop、Spark等开源框架。

2025-11-03 07:44:44 777

原创 INT303 Big Data Analysis 大数据分析 Pt.3 数据挖掘(Data Mining)

摘要 数据挖掘是从数据中提取有用知识的过程,涉及数据收集、预处理、分析和后处理等环节。数据类型包括数值、分类、集合、依赖、空间和图数据等。数据预处理是关键步骤,包含减少数据量(采样、降维)、数据清洗和特征提取/选择。采样方法有简单随机抽样、有放回/无放回抽样、分层抽样和有偏抽样等,其中分层抽样能确保各子群体代表性。高质量的数据预处理能显著提升分析效果,但常被视为繁琐工作。

2025-11-03 04:44:53 1315 2

原创 INT303 Big Data Analysis 大数据分析 Pt.5 数据爬取

本文介绍了数据爬取的基本概念和技术流程。首先阐述了数据科学的跨学科特性,指出其需要技术能力、数学统计知识和领域专业知识。随后详细讲解了网络服务器的工作原理,包括HTTP请求响应流程、URL结构解析等内容,并展示了浏览器访问网页和爬虫抓取数据的区别。文章通过具体示例演示了HTTP请求和响应的格式,列举了常见状态码含义。最后介绍了使用Python的requests库实现网页抓取的方法,并讨论了数据爬取的必要性,包括替代缺失API、自动化采集和实时数据获取等应用场景。

2025-11-02 16:12:32 1012

原创 INT303 Big Data Analysis 大数据分析 Pt.4 数据可视化

摘要 数据可视化通过图形展示数据特征,弥补单纯统计分析的不足。可视化原则包括:1)最大化数据与墨水比例,突出核心信息;2)保持尺度真实,避免误导;3)减少装饰性元素;4)提供清晰完整的标签。常用图表类型可分为:1)分布类(直方图、散点图)展示数据形态;2)关系类(气泡图)揭示变量关联;3)构成类(饼图、堆叠图)呈现部分与整体关系;4)比较类图表(折线图、条形图)用于数值对比。可视化能直观发现数据模式、异常值和趋势,是数据分析和结果展示的重要工具。

2025-11-01 16:55:21 988

原创 INT303 Big Data Analysis 大数据分析 Pt.2 什么是数据?

数据是由多个数据对象及其属性组成的集合,属性可分为数值型(离散/连续)和分类型(名义/有序)。关系型数据存储在固定模式的表中,而数值数据可表示为多维空间中的点。向量数据库存储机器学习生成的嵌入向量。混合数据包含数值和分类属性,可通过独热编码或分箱处理。分箱方法包括等宽、等深、等对数和优化分箱,适用于不同数据分布。这些概念是数据分析和机器学习的基础。

2025-10-27 05:51:11 1376

原创 INT303 Big Data Analysis 大数据分析 Pt.1 导论

数据科学从经验观察发展为理论分析与计算建模的跨学科领域。现代数据挖掘通过特征提取、模型训练和在线服务等流程,将海量异构数据转化为商业与科研价值。以Hubway骑行数据和社交网络推荐系统为例,展示了数据整合、特征工程和相似性分析等核心技术。面对数据缺失问题,可采用协同过滤、聚类或预测模型进行补全。数据可视化不仅辅助探索性分析,还能验证假设并指导决策。这一流程涵盖数据收集、清洗、建模到应用的全周期,需要融合统计学、机器学习与分布式计算等多学科方法

2025-10-26 07:12:53 734

原创 INT301 Bio-computation 生物计算(神经网络)Pt.5 卷积神经网络简介

如果是负数,则输出0。饱和函数(saturating functions)通常指的是那些在输入值较大或较小时,输出值趋于稳定,不再随输入值增加而显著变化的函数例如我们前面学习的Sigmoid函数,它的输出值被限制在0和1之间。Sigmoid函数的导数(即梯度)在输入值较大或较小时接近于0,这意味着在sigmoid函数达到其输出的两端(接近0或1)时,梯度几乎为0,这种现象称为饱和(saturate)。这意味着在层m中的隐藏单元的输入仅来自层m-1中的一个子集单元,这些单元具有在空间上连续的感受野。

2025-10-23 02:01:17 1028

原创 INT301 Bio-computation 生物计算(神经网络)Pt.4 多层感知机(Multilayer Perceptron,MLP)

本文介绍了多层感知机(MLP)的基本原理与训练方法。MLP是一种由多个感知机组成的层次结构,通过非线性激活函数(如Sigmoid、ReLU)能够学习复杂函数映射,克服了单层网络的局限性。文章详细阐述了MLP的结构特性,包括隐藏层对非线性关系的捕捉能力,以及其在表示不同类型函数方面的优势。重点讲解了反向传播算法,该算法通过前向传播计算输出、反向传播修正误差的方式训练网络,采用梯度下降优化权重参数。推导过程展示了如何计算各层节点的效益值并更新权重,以最小化损失函数。

2025-10-22 06:06:33 1067

原创 INT301 Bio-computation 生物计算(神经网络)Pt.3 梯度下降与Sigmoid激活函数

本文介绍了梯度下降算法及其在机器学习中的应用。主要内容包括:1)梯度下降规则通过沿误差函数负梯度方向更新权重来最小化误差,使用平方误差函数$E(w)=\frac{1}{2}\sum(y_e-o_e)^2$;2)误差曲面可视化展示了权重变化与误差的关系,梯度指向误差增加最快的方向;3)推导了权重更新公式$w_i=w_i+\eta\sum(y_e-o_e)x_{ie}$,并通过具体示例演示了计算过程;4)介绍了增量梯度下降作为改进方法,解决传统梯度下降收敛速度慢的问题。

2025-10-21 05:06:33 523

原创 INT301 Bio-computation 生物计算(神经网络)Pt.2 监督学习模型:感知器(Perceptron)

本文介绍了机器学习与人工神经网络(ANN)的基础概念。机器学习通过数据学习预测离散类别(监督学习)或发现隐藏模式(无监督学习)。监督学习分为训练和测试阶段,通过准确性评估模型性能。ANN模拟人脑神经元结构,感知器是其早期模型,包含输入层和输出层,通过权重调整实现模式识别。感知器学习规则通过误差计算更新权重(Δw=学习率×误差×输入)。示例展示如何用感知器判断水果品质,通过二进制编码特征(味道、种子、果皮)训练模型。文章强调了训练数据分布对模型泛化能力的重要性。

2025-10-20 19:01:54 937

原创 INT305 Machine Learning 机器学习 Pt.4 SVM和Softmax分类器

本文介绍了二元分类问题的线性模型和几何方法。线性模型通过权重向量和偏置项进行预测,但0-1损失函数存在计算困难、无法区分不同假设的局限性。几何方法通过寻找分隔超平面实现分类,最优分隔超平面能最大化类别间隔(支持向量机)。对于非线性可分数据,可采用核技巧、软间隔(引入松弛变量允许部分分类错误)或正则化方法。软间隔SVM通过优化目标函数平衡间隔最大化与分类错误,C参数控制两者的权衡。

2025-10-15 05:10:19 958

原创 INT301 Bio-computation 生物计算(神经网络)Pt.1 导论与Hebb学习规则

本文介绍了生物计算与人工神经网络的基本概念和发展历程。主要内容包括:1)生物神经网络的结构与工作原理,包括神经元、突触等基本组成;2)人工神经网络的抽象模型,从McCulloch-Pitts神经元到现代神经网络架构;3)机器学习的基本原理和ANN的学习规则,重点是通过调整连接权重实现学习;4)深度学习和神经网络在模式识别、预测等任务中的应用。文章阐明了ANN虽然受生物神经元启发,但已发展出独立于生物机制的数据驱动学习方法,成为机器学习的重要工具之一。

2025-10-09 18:58:09 744

原创 INT305 Machine Learning 机器学习 Pt.3 二元分类和多类分类

本文介绍了机器学习中的分类任务,重点讨论了二元线性分类的原理和实现方法。首先定义了分类任务的基本概念,包括二元分类和多类分类的区别。通过线性分类模型,详细讲解了权重向量、偏置项和决策边界的数学表达,并介绍了简化模型的两种方法:消除阈值和消除偏置项。文章通过NOT和AND逻辑运算的具体示例,展示了线性分类器的应用和几何解释,包括数据空间和权重空间的可视化。最后,讨论了0-1损失函数的定义及其优化面临的挑战,指出由于该函数的非连续性、非平滑性,导致优化成为NP难问题。整体而言,文章系统性地介绍了线性分类的基础理

2025-10-07 06:54:05 1327

原创 INT305 Machine Learning 机器学习 Pt.2 线性回归的模块化方法

线性回归是一种监督学习方法,用于预测连续数值目标。它假设输入特征与输出目标之间存在线性关系,通过权重向量和偏置项构建预测模型。关键步骤包括:选择线性模型、定义平方误差损失函数、添加正则化项防止过拟合,以及通过优化算法最小化损失函数。文章详细介绍了向量化方法如何提高计算效率,并讨论了代数与微积分两种求解最优参数的方法,包括正交投影的直接解。线性回归展示了模块化机器学习方法,通过组合不同组件可适应多种任务。

2025-10-06 04:10:48 1293 2

原创 INT305 Machine Learning 机器学习 Pt.1 导论与 KNN算法

本文介绍了机器学习相关课程及基本概念。课程涵盖监督学习(KNN、决策树、SVM等)、无监督学习(K-means、混合 portfolios)和强化学习三大类。机器学习被定义为通过经验提高任务表现的计算程序,适用于图像识别等传统编程难以解决的问题。与统计学相比,机器学习更注重预测性能和可扩展性;与AI的关系上,机器学习是基于数据学习的系统,不同于符号推理等非学习型AI。文章还梳理了机器学习与人类学习的差异,以及从1957年感知机算法开始的简要发展历程。机器学习通过借鉴生物机制,在特定任务上可能超越人类绩效。

2025-10-03 05:21:42 889

原创 使用 C# 通过 .NET 框架开发应用程序的安装与环境配置

.NET开发环境配置指南 本文介绍了.NET开发环境的安装与配置方法。.NET是微软推出的开源跨平台开发框架,支持多种应用开发,主要使用C#语言。文章提供了两种IDE选择:JetBrains Rider和Visual Studio,详细讲解了它们的安装步骤。同时介绍了两种.NET SDK安装方式:单独下载安装和通过Visual Studio工作负荷安装。环境配置完成后,可通过命令行验证安装是否成功。对于曾使用Unity开发C#的用户,文章解释了为何需要额外安装.NET SDK的原因。

2025-08-08 23:05:48 1693

原创 Unity里的对象旋转数值跳转问题的原理与解决方案

摘要:本文探讨了Unity中3D物体旋转时欧拉角数值跳变的问题。由于旋转矩阵计算顺序(Z-X-Y)与Unity自身坐标系顺序(Y-X-Z)的差异,导致调整单个轴会影响其他轴数值。提出两种解决方案:1)推荐使用父子层级结构分别控制各轴旋转,按Y-X-Z顺序创建父子对象;2)使用四元数旋转,通过代码创建各轴四元数并相乘。第一种方法更直观,便于在Inspector中调整,同时建议善用父子关系管理对象变换。

2025-08-06 23:57:20 1125

原创 为什么一样的文件可能占用的空间忽大忽小?什么是分配单元/簇(Allocation Unit)?什么是内部碎片?讲解与实践。

移动硬盘与本地硬盘存储相同文件时占用空间差异显著,根源在于文件系统的"分配单元/簇"大小不同。文件实际大小指内容字节数,而占用空间受簇大小影响——即使文件很小也会占用整个簇,导致内部碎片。移动硬盘(exFAT)默认簇较大(如1TB硬盘为1MB),而本地硬盘(NTFS)通常为4KB,因此存储大量小文件时前者空间浪费更严重。虽然减小簇可节省空间,但会降低读写效率。解决方案包括压缩文件减少碎片,或通过diskpart命令查看具体簇大小。系统盘还存在隐藏分区(如MSR、EFI等),其偏移量反映了

2025-08-06 16:50:39 1272

208 Helpsheet.docx

208考试的Help sheet,有的地方打印出来要补一下/整理的有点乱,但是所有知识点都覆盖了。

2025-05-30

INT102 Algorithmic Foundations and Problem Solving 算法基础与问题解决

INT102 知识点大纲,稍微梳理了一下INT102的知识点,适合于考前复习时候观看,算法基础其实不难,相信大家认真学习加上这份资料的复习,一定能在这门课上取得好成绩。 资料的第一张图展示了这节课所需要学习的知识点,第一周介绍了伪码和Big-O,之后根据不同算法的核心思想介绍了各种算法,比如穷举法是Selcecting sort、Bubble sort、Insertion sort,分而治之的Merge sort,然后会介绍图,从而图里的一些算法以及一些思想,比如以贪心思想而解决问题的Dijkstra's算法,还会介绍动态编程,将递归法和动态编程进行对比,后面还会介绍P和NP问题。 这学期的课程其实和CPT102会有很多相似点,毕竟两者都涉及算法,而算法和数据结构又是密不可分的。

2024-09-13

CPT102 Data Structure and Algorithm 数据结构和算法 学习大纲

本人在复习CPT102时将知识进行了一个梳理,有助于你更好地理解这门课程,这个资料仍需要你搭配课程的课件一起才能有助于更好地理解知识点,适用于复习周或者你没有一段教学后你没有理解课程知识点内部关系的时候使用。 CPT102这门课中的知识点有些分散,很多地方有关联,但是由于课程安排导致这些知识没有在一节课中全部传授,或者就是因为前后跨度比较大所以导致没有连接在一起,通过这个大纲可以帮助你将课程里的各个知识点联系在一起。 程序是由数据结构和算法一起构成的,因此一个优秀的程序需要这两个部分都提供最合适的,课程主要以两个部分开展,第一部分介绍了一系列线性数据结构或者称之为一维的数据结构,第二部分介绍分层数据结构,这些数据直接的优劣,这里的比较一般就是算法上的比较,他们的搜索速度,修改速度,所占空间的大小差异进行了比较。 最后的一张图说明了Java里面的这些数据结构的所有联系。

2024-09-12

MTH008 多元微积分 笔记(知识点+例题)

个人在学习MTH008的笔记,上面包含了多元微积分的知识点和例题。 知识点只包含到了12章,但是如果你能够把微积分这前12章的知识都能了然于心,那你最后期末考试考一个80+我觉得不是问题。 红色的代表重点,如果备考或者时间比较紧张可以直接查看红色的知识点,然后看看上面对应知识点的例题进行快速的复习,但是如果是你对多元微积分不是很清楚,建议你从最基础的微积分的开始稍微温习一遍,然后再认真看这篇笔记,多元微积分到微积分的跨度还是比较大的,需要多做一些题目,微积分很多时候和高中知识还是比较像的,而且学习的时间与高中时间比较接近所以做起来也比较熟练。但是在多元微积分的时候这个计算量比过去大很多,如果没有平时进行一定量的练习,无论是时间和正确率都很难有足够的竞争力。如果你对这上面的知识点都很熟练了之后,就可以尝试冲刺最后的难点,否则就继续学习这篇笔记可能对快速提高成绩更有帮助。 由于本人就读的课程以英文进行教学所以本篇都是英文书写的,如果你就读的课程授课语言是中文,你可以先学习了解清楚多元微积分的知识后再看一遍这个笔记,相信你能很快理解里面的一些专业术语,然后对你有一定的提高作用。

2024-08-23

MTH013 微积分 个人笔记(知识点+例题)

个人在学习大一上MTH013的微积分的笔记,里面包含了整个课程的知识点,一些较难的地方我写了一些例题以更好的理解。 红色是重点,如果是备考或者是复习冲刺就可以只看红色的重点,整体浏览可以帮你快速理解微积分的所有重点,但是数学这门功课重要的是还是多加的练习,笔记里的一些例题是对应知识点的题目,难度比较简单,但是做一遍可以让你快速熟悉知识点,相信绝大部分人认真看完这份教程都能在最后考80+的好成绩,如果你平时就勤于练习那应该90+不是问题,希望大家好好学习微积分,给自己下学期的多元微积分打下一个夯实的基础,如果大一下在学习多元微积分的时候遇到了一些问题也可以看这里的笔记以快速复习遗忘的微积分知识。 由于我的授课多以英语为主,书本ppt都是英文所以这份笔记是英文的,如果是国内以中文授课为主的大学的学生可以尝试自己先看一遍书本然后再看这个笔记,相信你能很快理解里面的一些专业术语然后让自己的水平更上一个台阶。

2024-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除