机器学习
文章平均质量分 75
机器学习相关操作
猿童学
我没有学习,就是随便看看哦。
展开
-
决策树(decision tree)——(2)生成算法
**注:本博客为李航《统计学习方法》读书笔记,虽然有一些自己的理解,但是其中仍然有大量文字摘自李老师和周老师的书籍内容。本章将介绍决策树学习的生成算法.首先介绍ID3的生成算法,然后再介绍C4.5中的生成算法.这些都是决策树学习的经典算法.ID3算法ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树.具体方法是:从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,.........原创 2022-07-16 15:25:14 · 1455 阅读 · 0 评论 -
Python数据处理工具——Pandas
一、序列与数据框的构造Pandas模块的核心操作对象就是序列(Series)和数据框(DataFrame)。1、构造序列 使用如下方式实现: 通过同质的列表或元组构建。 通过字典构建。 通过Numpy中的一维数组构建。 import pandas as pdimport numpy as npdata1=pd.Series([2.8,3.01,8.99,8.59,5.18])data2=pd.Series({'北京':2.8,'上海':3.01,'广东':8.99.原创 2022-05-05 06:45:00 · 5842 阅读 · 0 评论 -
机器学习——聚类——商场客户聚类
聚类的介绍案例——商场客户聚类一、读取数据import pandas as pd beer=pd.read_csv('beer.txt',sep=' ')#输出文件内容beerpandas.read_csv常用参数为:header, sep, name……header:指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None。如果明确设定header=0 就会替换掉原来存在列名。header参数可以是一个list例如:[0原创 2022-05-02 21:59:59 · 3155 阅读 · 2 评论 -
决策树(decision tree)——(1)生成与度量指标
**注:本博客为李航《统计学习方法》与周志华《机器学习》读书笔记,虽然有一些自己的理解,但是其中仍然有大量文字摘自李老师和周老师的书籍内容。决策树(decision tree)是一种基本的分类与回归方法.本章主要讨论用于分类的决策树.决策树模型呈树形结构,分类时,可以认为是定义在特征空间与类空间上的条件概率分布.其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步原创 2022-04-20 22:51:29 · 1891 阅读 · 7 评论 -
机器学习——CART决策树——泰坦尼克还生还预测
Scikit-learn库中实现的决策树的算法是优化的CART算法。分类决策树的类是DecisionTreeClassifier。原创 2022-04-16 23:04:39 · 3377 阅读 · 11 评论 -
机器学习——垃圾邮件识别——SVM、MNB模型使用
本次案例采用SVM、MNB模型进行对比用Accuracy、F1 Score进行评估话不多说直接上代码包括数据集下载CSDNhttps://mp.csdn.net/mp_download/manage/download/UpDetailed# 读取数据并用空字符串替换空值df1 = pd.read_csv("spamham.csv")df = df1.where((pd.notnull(df1)), '')# 将垃圾邮件分类为 0,将非垃圾邮件分类为 1df.loc[df["Cat原创 2022-04-13 22:57:33 · 23029 阅读 · 126 评论 -
机器学习——混淆矩阵、Precison、Recall、Accuracy、F1-score的使用
假设有10个样本,属于A、B、C三个类别。假设这10个样本的真实类别和预测的类别分别是:真实:A A A C B C A B B C预测:A A C B A C A C B C(1) 求出混淆矩阵。(2)求出每个类别的P, R, 和F1。草稿纸解:略····直接套公式即可,可以看以下文章中的混淆矩阵部分。机器学习——分类评价指标_猿_同学的博客-CSDN博客ROC是一个用于度量分类中的非均衡性的工具,ROC曲线及AUC常被用来评价一个二值分类器的优劣。为什么要使用ROC和AU原创 2022-04-12 23:51:14 · 22191 阅读 · 1 评论 -
机器学习——分类评价指标
ROC是一个用于度量分类中的非均衡性的工具,ROC曲线及AUC常被用来评价一个二值分类器的优劣。为什么要使用ROC和AUC呢?因为,在实际的数据集中经常会出现类别不平衡现象,即女性本比男性样本多很多(或者相反),而且测试数据中的男女样本的分布也可能随着时间而变化。而在这种情况下,ROC曲线能够保持不变。...原创 2022-04-11 23:58:42 · 21232 阅读 · 4 评论 -
机器学习——数据的预处理(总结大全)
特征缩放一、为什么要特征数据缩放?有特征的取值范围变化大,影响到其他的特征取值范围较小的,那么,根据欧氏距离公式,整个距离将被取值范围较大的那个特征所主导。为避免发生这种情况,一般对各个特征进行缩放,比如都缩放到[0,1],以便每个特征属性对距离有大致相同的贡献。作用:确保这些特征都处在一个相近的范围。优点:1、这能帮助梯度下降算法更快地收敛,2、提高模型精直接求解的缺点:1、当x1 特征对应权重会比x2 对应的权重小很多,降低模型可解释性2、梯度......原创 2022-04-06 15:37:25 · 30731 阅读 · 29 评论 -
Python数据可视化——图型参数介绍
利用Python绘制常见的统计图形,例如条形 图、饼图、直方图、折线图、散点图等,通过这些常用图形的展现,将 复杂的数据简单化。这些图形的绘制可以通过matplotlib模块、pandas模 块实现。原创 2022-04-05 00:15:49 · 21356 阅读 · 0 评论 -
机器学习——最小二乘法求解线性回归
1、原理:均方误差MES(损失函数)有非常好的几何意义,它对应了常用的欧几里得距离或简称“欧氏距离”(Euclidean distance).基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method).在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小.2、模型分析:如何确定w和b呢?显然,关键在于如何衡量f(z)与y之间的差别,均方误差(2.2)是回归任务中最常用的性能度量,......原创 2022-04-04 17:02:44 · 20880 阅读 · 0 评论 -
机器学习——Matplotlib画廊的使用
绘制简单的折线图plt.plotimport matplotlib.pyplot as plt#设置数值点x= [1, 2, 3, 4, 5]y=[1,4,9,16,25]#画图plt.plot(x,y)# 用黑体显示中文plt.rcParams['font.sans-serif'] = ['SimHei'] #标签plt.title("折线图", fontsize=24)plt.xlabel("X轴", fontsize=14) plt.ylabel("Y轴", fo原创 2022-04-03 20:47:16 · 2031 阅读 · 0 评论 -
机器学习——逻辑回归案例——泰坦尼克号乘客生还
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。...原创 2022-04-02 17:27:03 · 5637 阅读 · 2 评论 -
机器学习——线性回归案例——波士顿房价预测
因为此案例比较经典,所以数据已经镶嵌在里面了1、导入模块。#模型获取,有线性回归、岭回归、套索回归模型from sklearn.linear_model import LinearRegression,Ridge,Lasso#评估from sklearn.metrics import r2_score#数据集import sklearn.datasets as datasets#画图import matplotlib.pyplot as plt2、获取训练数据原创 2022-03-30 20:28:20 · 13136 阅读 · 6 评论 -
机器学习——k近邻算法——性别预测
存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。...原创 2022-03-30 16:41:58 · 4900 阅读 · 4 评论 -
机器学习——鸢尾花案例——交叉验证
在同一个训练级上训练除10个不同的模型,然后在数据集上对这十个模型进行测试,得到测试集误差,以此作为模型选择得标准,选择测试误差最小得那个模型。但是凭此一次考试就对模型得好坏进行评价是不合理的,所以接下来介绍交叉验证法。1、10折交叉验证。首先导入必要的库。from sklearn.datasets import load_irisfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selecti......原创 2022-03-26 16:41:23 · 6052 阅读 · 1 评论 -
机器学习——K近邻案例——鸢尾花分类
实验 K近邻1 实验目的(1)掌握特征缩放的语法。(2)掌握K近邻模型的语法。(3)掌握csv文件的读操作。(4)理解混淆矩阵及准确率、召回率和F1分数的计算。2 实验内容案例一:鸢尾花分类1、首先导入必要的库#数学函数库 import numpy as npimport#数据可视化库 import matplotlib.pyplo......原创 2022-03-22 17:29:52 · 4284 阅读 · 0 评论 -
用Matplotlib绘制学生身高实例——直方图
对一个班级62个同学身高进行了统计,结果如下表所示 150,152,153,153,155,154,156,157,157,158, 158,158,157,159,159,160,160,161,161,160, 159,159,160,160,162,162,163,163,163,164, 164,164,163,162,164,164,163,163,164,163, 165,165,166,166,166,167,167,166,166,167,.....原创 2022-03-16 00:24:46 · 4728 阅读 · 4 评论 -
用Matplotlib绘制事物的变化情况实例——折线图
某研究人员观测了一个星期的竹笋生长情况,记录了从第1天到第7天的竹笋长度如下表所示: 1 2 3 4 5 6 7 长度(cm) 13 20 29 35 48 59 ......原创 2022-03-16 00:21:27 · 1518 阅读 · 0 评论 -
机器学习——Numpy、 Matplotlib、 Pandas的使用
实验1 Anaconda3的使用和Numpy、 Matplotlib、 Pandas的使用1 实验目的掌握在 Anaconda3环境下编写Python程序的方法。 掌握Numpy中对数组的操作方法。 掌握Matplotlib中常用图形的绘制方法。 掌握 Pandas中对数据框的操作方法。2 实验内容从 Anaconda3进入Jupiter Notebook,创建一个新的程序,保存到D:\maln目录下。写出具体步骤。 创建一个2行3列的二维数组,并将其各元素初始化为0。 设x=[原创 2022-03-15 13:20:12 · 2092 阅读 · 0 评论