机器学习
文章平均质量分 77
机器学习
莫聽穿林打叶聲
Talk is cheap, show me the code.
展开
-
数据降维与主成分分析
在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多?实际生产中,只用M,L,XL等型号代替。原创 2024-10-23 19:13:06 · 714 阅读 · 0 评论 -
基于线性回归(Linear Regression)的房屋价格预测
线性回归是统计学中的一种基本预测模型,用于估计因变量(响应变量)和一个或多个自变量(解释变量)之间的关系。线性回归模型假设这些变量之间存在线性关系。根据自变量的数量,线性回归可以分为简单线性回归(一个自变量)和多元线性回归(多个自变量)。梯度下降是一种优化算法,用于最小化一个函数,通常用于机器学习中的参数优化问题。其核心思想是:通过迭代地调整参数,沿着目标函数(通常是损失函数)梯度下降的方向逐步逼近最小值。原创 2024-10-22 21:59:41 · 949 阅读 · 0 评论 -
kaggle| 使用线性回归进行洪水预测
这个数据集包含了可能影响洪水风险的各种因素的信息。数据集包括几个特征,代表与环境、社会、基础设施和治理相关的因素,这些因素可能会影响洪水事件的可能性和严重程度。此外,它还包括一个目标变量“FloodProbability”,它可能表明在该地区不同地区发生洪水的可能性。原创 2024-10-21 10:21:17 · 607 阅读 · 0 评论 -
基于遗传算法和决策树的特征选择
使用遗传算法进行特征选择,并使用决策树算法评估每个特征选择方案的分类性能。通过这种方式,可以找到最优的特征子集,从而提高分类模型的性能。遗传算法通过模拟生物进化过程,逐步优化特征选择方案,而决策树算法则提供了快速评估特征选择方案的手段。原创 2024-07-17 21:48:51 · 380 阅读 · 0 评论 -
多层感知机
感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机旨在求出将输入空间中的实例划分为两类的分离超平面。为求得超平面,感知机导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最优化求解。原创 2024-05-26 21:19:02 · 1332 阅读 · 0 评论 -
基于随机森林的otto商品分类
Otto Group数据集来源于《Otto Group Product Classification Challenge》。Otto集团是世界上最大的电子商务公司之一,在20多个国家拥有子公司。我们每天在全球销售数百万种产品,在我们的产品线中添加了数千种产品。我们公司对我们产品性能的一致性分析至关重要。然而,由于我们的全球基础设施不同,许多相同的产品被分类不同。因此,我们的产品分析的质量在很大程度上取决于对类似产品进行准确分类的能力。分类越好,我们对产品范围的了解就越多。原创 2023-09-01 16:25:08 · 626 阅读 · 0 评论 -
基于孤立森林算法的异常值检测
【代码】基于孤立森林算法的异常值检测。原创 2023-08-31 21:26:56 · 451 阅读 · 0 评论 -
特征数值化与独热编码
One-Hot编码,又称为一位有效编码,是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制向量,将整数索引标记为1,其余都标为0。原创 2023-08-24 18:27:19 · 1200 阅读 · 0 评论 -
机器学习十大算法之七——随机森林
一棵棵决策树构成了整个随机森林,具体构建树的数量,在scikit-learn中,用“”这个参数来控制。在训练某棵树的时候,也不是将样本的所有特征都用来训练,而是会随机选择一部分特征用来训练,目的就是让不同的树重点关注不同的特征。在scikit-learn中,用“”这个参数来控制训练每棵树选取的样本数)。只要了解决策树的算法,那么随机森林是相当容易理解的。用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集用抽样得到的样本集生成一棵决策树。原创 2023-08-24 15:02:01 · 1246 阅读 · 0 评论 -
基于随机森林的波士顿房价预测
波士顿房地产市场竞争激烈,而你想成为该地区最好的房地产经纪人。为了更好地与同行竞争,你决定运用机器学习的一些基本概念,帮助客户为自己的房产定下最佳售价。幸运的是,你找到了波士顿房价的数据集,里面聚合了波士顿郊区包含多个特征维度的房价数据。你的任务是用可用的工具进行统计分析,并基于分析建立优化模型。这个模型将用来为你的客户评估房产的最佳售价。读取数据 CRIM ZN INDUS CHAS NOX R原创 2023-08-11 10:39:50 · 1357 阅读 · 0 评论 -
基于逻辑斯蒂(Logistic Regression)回归的肿瘤预测
在实际工作中,要弄清楚每一个肿瘤特征代表什么含义,这样才能做好异常值缺失值的处理。原创 2023-08-24 13:56:06 · 182 阅读 · 0 评论 -
基于逻辑斯蒂回归的肿瘤预测
换句话说,样本在特征空间中的位置可能与分离超平面距离非常近,也有可能非常远,如果距离较远,那么它更有可能被分成它所在一侧对应的类,但是如果与超平面的距离非常近,说明它被分成另一类的可能性也很大,比如被分成A的可能性为51%,而分成B类的可能性为49%,此时线性回归会将其分为A类,而忽略了49%分成B类的可能性。比如我们认为A类为正类,B类为负类,那么当某个样本分为A类的概率>50%,我们可认为其为A类,如果原创 2023-07-10 15:32:12 · 297 阅读 · 0 评论 -
线性回归(Linear Regression)
回归分析这是一个来自统计学的概念。回归分析是指一种预测性的建模技术,主要是研究自变量和因变量的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。如果使用直线进行拟合,则为线性回归(一元线性回归、多元线性回归);如果是对非线性关系进行建模,则为多项式回归。例如,存在以下数据(左图)。然后我们拟合一条曲线fxf(x)fx右图,回归分析的目标就是要拟合一条曲线,让图中红色线段加起来的和最小。原创 2023-07-05 15:45:23 · 2095 阅读 · 2 评论 -
利用逻辑斯蒂回归预测学生是否被学校录取
题目吴恩达机器学习-逻辑斯蒂回归使用Logistic回归模型来预测一个学生是否被大学录取。假设你是大学某个院系的管理员,你想通过申请人在两门考试中的表现来决定每个人的录取率,你有来自以前申请人的历史数据,你可以用这些数据作为训练集建立Logistic回归,对每一个训练样本,你有申请人在两门考试中的分数和录取决定。你的任务是建立一个分类模型,基于这两门课的分数来估计申请人的录取概率。吴恩达数据集ex2data1.txt。假设函数hθ(x)=11+eθTxh_\theta(x)=\frac{1}{1原创 2023-03-12 12:55:45 · 490 阅读 · 0 评论 -
基于K-近邻算法 (K-Nearest Neighbors,KNN)的鸢尾花种类预测
(K-Nearest Neighbor,KNN)是一种基本的分类和回归方法,是监督学习方法里的一种常用方法。K近邻算法用一句通俗的古语来说就是:“物以类聚,人以群分”。有人说看一个人什么样,看他身边的朋友什么样就知道了。在机器学习中你要看一个实例的类别,你就可以看它附近都是什么类别。你要看你自己在北京哪个区,看理你最近的几个人(可以看K个人)是哪个区的,那么大概率你也是这个区的。原创 2023-08-27 20:36:23 · 787 阅读 · 0 评论
分享