机器学习
文章平均质量分 70
机器学习
莫聽穿林打叶聲
Talk is cheap, show me the code.
展开
-
基于遗传算法和决策树的特征选择
使用遗传算法进行特征选择,并使用决策树算法评估每个特征选择方案的分类性能。通过这种方式,可以找到最优的特征子集,从而提高分类模型的性能。遗传算法通过模拟生物进化过程,逐步优化特征选择方案,而决策树算法则提供了快速评估特征选择方案的手段。原创 2024-07-17 21:48:51 · 354 阅读 · 0 评论 -
向量和矩阵运算及Numpy中对应方法
向量的内积等价于a@b向量的外积向量元素对应位置相乘等价于a*b矩阵点乘np.multiply(a,b)等价于a*b矩阵叉乘等价于a@b。原创 2022-06-18 22:44:20 · 1703 阅读 · 1 评论 -
数据处理随机采样前提条件
数据应该是独立且同分布的。也就是说,每个数据点是独立于其他数据点生成的,并且所有数据点来自相同的分布。这确保了样本能够代表总体分布的特性。:采样方法应该是无偏的,这意味着每个数据点被选中的概率是相等的。满足这些前提条件,可以确保随机采样的结果具有统计意义,并能够有效地用于后续的数据分析和模型训练等任务。:样本量应该足够大,以便能够有效地代表总体。:总体数据集需要是明确定义和有限的。在进行随机采样时,需要清楚地知道总体的边界和范围。:数据集应该是完整且高质量的。缺失值或错误值可能会影响采样结果的准确性。原创 2024-05-31 18:24:38 · 269 阅读 · 0 评论 -
感知机&多层感知机
感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机旨在求出将输入空间中的实例划分为两类的分离超平面。为求得超平面,感知机导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最优化求解。原创 2024-05-26 21:19:02 · 1260 阅读 · 0 评论 -
使用sklearn中make_blobs()方法生成分类数据
表示每个类别的方差,例如我们希望生成2类数据,其中一类比- 另一类具有更大的方差,可以将cluster_std设置为[1.0,3.0],浮点数或者浮点数序列,默认值1.0。:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2。这里生成了n_sample=20行的数据(20个样本点),样本的维度为4,数据类别是centers=3种。:官网解释是随机生成器的种子,可以固定生成的数据,给定数之后,每次生成的数据集就是固定的。:中心确定之后的数据边界,默认值(-10.0, 10.0)原创 2023-09-07 20:57:20 · 665 阅读 · 0 评论 -
基于随机森林的otto商品分类
Otto Group数据集来源于《Otto Group Product Classification Challenge》。Otto集团是世界上最大的电子商务公司之一,在20多个国家拥有子公司。我们每天在全球销售数百万种产品,在我们的产品线中添加了数千种产品。我们公司对我们产品性能的一致性分析至关重要。然而,由于我们的全球基础设施不同,许多相同的产品被分类不同。因此,我们的产品分析的质量在很大程度上取决于对类似产品进行准确分类的能力。分类越好,我们对产品范围的了解就越多。原创 2023-09-01 16:25:08 · 613 阅读 · 0 评论 -
基于孤立森林算法的异常值检测
【代码】基于孤立森林算法的异常值检测。原创 2023-08-31 21:26:56 · 429 阅读 · 0 评论 -
Pandas计算连续行为日期跨度
我需要统计数据中缺失字段的日期跨度,并统计缺失数据条数。有的字段是连续缺失,如表中当日最高温从2019-04-19至2019-04-30缺失了12条数据,需要统计出来。原创 2023-08-29 12:56:02 · 189 阅读 · 0 评论 -
基于LOF算法的异常值检测
LOF异常检测算法是一种基于密度的异常检测算法,基于密度的异常检测算法主要思想是:给定的样本数据集,对于数据集中的点,如果其局部领域的点都很密集,那么这个点大概率为正常的数据点;而如果这个点距离其相邻的点距离较远,也就是在一个局部领域的点密度较小,那么这个点可能为异常点。原创 2023-08-27 11:26:37 · 2633 阅读 · 0 评论 -
pandas数据分析——groupby得到分组后的数据
在处理时间序列的数据中,有时候会遇到有些日期的数据缺失的情况,这时候可以用pandas的。函数快速补齐缺失日期,再根据实际情况补齐缺失值。原创 2023-08-26 23:58:42 · 702 阅读 · 0 评论 -
scikit-learn中OneHotEncoder用法
One-Hot编码,又称为一位有效编码,是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制向量,将整数索引标记为1,其余都标为0。原创 2023-08-24 18:27:19 · 1174 阅读 · 0 评论 -
机器学习十大算法之七——随机森林
一棵棵决策树构成了整个随机森林,具体构建树的数量,在scikit-learn中,用“”这个参数来控制。在训练某棵树的时候,也不是将样本的所有特征都用来训练,而是会随机选择一部分特征用来训练,目的就是让不同的树重点关注不同的特征。在scikit-learn中,用“”这个参数来控制训练每棵树选取的样本数)。只要了解决策树的算法,那么随机森林是相当容易理解的。用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集用抽样得到的样本集生成一棵决策树。原创 2023-08-24 15:02:01 · 1219 阅读 · 0 评论 -
使用箱线图进行气温历史数据清洗
【代码】数据清洗——气温历史数据。原创 2023-08-24 11:01:35 · 223 阅读 · 0 评论 -
Matplotlib画多幅子图重叠解决方案
函数:使得子图横纵坐标更加紧凑,主要用于自动调整图区的大小以及间距,使所有的绘图及其标题、坐标轴标签等都可以不重叠的完整显示在画布上。原创 2023-08-24 10:48:58 · 253 阅读 · 0 评论 -
如何在Pandas中根据条件替换列中的值
【代码】df.loc[ df[“column_name“] == “some_value“, “column_name“ ] = “value“原创 2023-08-24 10:08:45 · 539 阅读 · 0 评论 -
数据处理与统计分析——MySQL与SQL
数据库:DB(DataBase)概念:数据仓库,软件,安装在操作系统之上作用:存储数据,管理数据。原创 2023-08-20 12:42:05 · 922 阅读 · 1 评论 -
使用Python库Matplotlib绘制常用图表类型
箱线图(Box plot),也称为盒须图,是一种用于显示数据分布的统计图表。它通过显示数据的五个统计量(最小值、第一四分位数、中位数、第三四分位数和最大值)来概括数据的分布情况。- 显示数据分布情况:箱线图提供了对数据分布的直观概览,包括数据的集中趋势、分散程度和对称性。- 识别异常值:箱线图通过“须”的长度和离群点(异常值)显示数据中的异常值或极端值。- 比较不同组的数据:箱线图可以并排显示多个数据集,方便比较不同组的分布情况。原创 2024-06-01 10:59:35 · 685 阅读 · 0 评论 -
基于梯度下降算法的无约束函数极值问题求解
导数(Derivative),也叫。又名,是微积分中的重要基础概念。。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。。例如在运动学中,物体的位移对于时间的导数就是物体的瞬时速度。对于一条直线来说,求该直线的斜率就是找到该直线上两个点x1y1和x2y2,分别求出两点在y和x上的增量。因此斜率就是y的改变量比上x的改变量,即ktanθΔyΔxx2−x1y2−y1。原创 2023-07-06 00:21:09 · 1452 阅读 · 0 评论 -
基于随机森林的波士顿房价预测
波士顿房地产市场竞争激烈,而你想成为该地区最好的房地产经纪人。为了更好地与同行竞争,你决定运用机器学习的一些基本概念,帮助客户为自己的房产定下最佳售价。幸运的是,你找到了波士顿房价的数据集,里面聚合了波士顿郊区包含多个特征维度的房价数据。你的任务是用可用的工具进行统计分析,并基于分析建立优化模型。这个模型将用来为你的客户评估房产的最佳售价。读取数据 CRIM ZN INDUS CHAS NOX R原创 2023-08-11 10:39:50 · 1294 阅读 · 0 评论 -
基于逻辑斯蒂(Logistic Regression)回归的肿瘤预测
在实际工作中,要弄清楚每一个肿瘤特征代表什么含义,这样才能做好异常值缺失值的处理。原创 2023-08-24 13:56:06 · 169 阅读 · 0 评论 -
基于逻辑斯蒂回归的肿瘤预测
换句话说,样本在特征空间中的位置可能与分离超平面距离非常近,也有可能非常远,如果距离较远,那么它更有可能被分成它所在一侧对应的类,但是如果与超平面的距离非常近,说明它被分成另一类的可能性也很大,比如被分成A的可能性为51%,而分成B类的可能性为49%,此时线性回归会将其分为A类,而忽略了49%分成B类的可能性。比如我们认为A类为正类,B类为负类,那么当某个样本分为A类的概率>50%,我们可认为其为A类,如果原创 2023-07-10 15:32:12 · 277 阅读 · 0 评论 -
基于线性回归(Linear Regression)的房屋价格预测
回归分析这是一个来自统计学的概念。回归分析是指一种预测性的建模技术,主要是研究自变量和因变量的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。如果使用直线进行拟合,则为线性回归(一元线性回归、多元线性回归);如果是对非线性关系进行建模,则为多项式回归。例如,存在以下数据(左图)。然后我们拟合一条曲线fxf(x)fx右图,回归分析的目标就是要拟合一条曲线,让图中红色线段加起来的和最小。原创 2023-07-05 15:45:23 · 1621 阅读 · 2 评论 -
利用逻辑斯蒂回归预测学生是否被学校录取
题目吴恩达机器学习-逻辑斯蒂回归使用Logistic回归模型来预测一个学生是否被大学录取。假设你是大学某个院系的管理员,你想通过申请人在两门考试中的表现来决定每个人的录取率,你有来自以前申请人的历史数据,你可以用这些数据作为训练集建立Logistic回归,对每一个训练样本,你有申请人在两门考试中的分数和录取决定。你的任务是建立一个分类模型,基于这两门课的分数来估计申请人的录取概率。吴恩达数据集ex2data1.txt。假设函数hθ(x)=11+eθTxh_\theta(x)=\frac{1}{1原创 2023-03-12 12:55:45 · 452 阅读 · 0 评论 -
基于K-近邻算法 (K-Nearest Neighbors,KNN)的鸢尾花种类预测
(K-Nearest Neighbor,KNN)是一种基本的分类和回归方法,是监督学习方法里的一种常用方法。K近邻算法用一句通俗的古语来说就是:“物以类聚,人以群分”。有人说看一个人什么样,看他身边的朋友什么样就知道了。在机器学习中你要看一个实例的类别,你就可以看它附近都是什么类别。你要看你自己在北京哪个区,看理你最近的几个人(可以看K个人)是哪个区的,那么大概率你也是这个区的。原创 2023-08-27 20:36:23 · 710 阅读 · 0 评论