![](https://img-blog.csdnimg.cn/2020081710392579.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习100天
文章平均质量分 91
关注微信公众号「K同学啊」,回复天数可获取当天的代码与数据
K同学啊
“365天深度学习训练” 报名中,报名微信:mtyjkh_
展开
-
机器学习100天:专栏目录
博客备注1.数据预处理数据的预处理2.简单线性回归模型初步了解了线性回归与数据可视化原创 2018-09-20 20:31:19 · 22530 阅读 · 0 评论 -
机器学习第11天:朴素贝叶斯模型 - 垃圾短信识别
1.前言语言环境:Python3.6.5编译器:jupyter notebook代码|数据:微信公众号(明天依旧可好)中回复:第10天这篇文章中,我们将通过贝叶斯模型来识别垃圾短信,这里也将引入分词,管道、tfidf等概念,相对于之前的文章上了一个台阶。2.导入数据import pandas as pddata=pd.read_table('../data/noteData.txt',sep='\t',header=None,nrows = 10000,names=["标签","短信内容"原创 2020-08-19 16:15:32 · 9958 阅读 · 1 评论 -
机器学习第10天:模型评价方法及代码实现
文章目录一、分类评价指标1.精确率(Precision)2.召回率(Recall)3.准确率(Accuracy)4.F1_score二、回归评价指标1.平方根误差(RMSE)2.均方误差(MSE)3.平均绝对误差(MAE)4.R方值(R2_score)一、分类评价指标混淆矩阵真实\预测正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)TP: 将正例预测为正例(预测正确)FN: 将正例预测为负例(预测错误)FP: 将负例预原创 2020-08-16 15:49:17 · 3532 阅读 · 1 评论 -
机器学习第9天:K-邻近算法模型(KNN)
文章目录一、基本概念一、基本概念K-近邻算法是一种基本分类和回归方法。K-邻近算法可以这样理解,K-近邻算法,即是给定一个训练数据集,输入一个新的实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例主要是哪一类别,那么就把该实例分类到这个类中。引用维基百科上的一幅图:蓝色方块与红色三角形为训练集中的实例,绿色小圆是新输入的实例,现在在现有实例中取K个离小绿圆最近实例用于判断其类别。当K=3时,所取实例在实线圆内,红三角占比最大,将新输入实例归为红三角一类。当K=5时,所取实例在虚线原创 2020-08-15 08:42:39 · 879 阅读 · 0 评论 -
机器学习第8天:IPyhon与Jupyter notebook
文章目录一、IPython是什么二、IPython的安装三、IPython功能介绍(一)用符号?获取文档一、IPython是什么ipython是一个python的交互式shell,比默认的python shell好用得多,支持变量自动补全,自动缩进,支持bash shell命令,内置了许多很有用的功能和函数。学习ipython将会让我们以一种更高的效率来使用python。同时它也是利用Pyth...原创 2018-10-15 16:47:28 · 30783 阅读 · 3 评论 -
机器学习第7天:深入了解逻辑回归
文章目录一、逻辑回归是什么二、逻辑回归的代价函数公式:一、逻辑回归是什么简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。逻辑回归是为了解决分类问题,根据一些已知的训练集训练好模型,再对新的数据进行预测属于哪个...原创 2018-10-12 22:31:27 · 30512 阅读 · 0 评论 -
机器学习第6天:数据可视化神器--Matplotlib
文章目录Matplotlib简介绘制散点图Matplotlib简介Matplotlib是一个数据可视化神器,画图用的。涉及的领域:散点图线图等高线图条形图/柱状图3D图形饼图Image图像灰度图这里主要介绍如何绘画机器学习中常用到的一些图像。绘制散点图-----数据传送门-----在这里插入代码片...原创 2018-09-28 13:20:33 · 32682 阅读 · 0 评论 -
机器学习第5天:逻辑回归
文章目录一、环境二、具体实现步骤第1步:数据预处理导入库导入数据将数据集分成训练集和测试集第2步:逻辑回归模型第3步:预测结果第4步:评估预测结果生成混淆矩阵混淆矩阵可视化三、可视化结果展示四、逻辑回归是什么五、知识点详解1. 关于可视化一、环境Python3.6.5编译器:jupyter notebook二、具体实现步骤第1步:数据预处理导入库import numpy as n...原创 2018-09-25 13:40:01 · 32228 阅读 · 3 评论 -
机器学习第4天:线性回归及梯度下降
文章目录一、简单线性回归(即一元线性回归)二、代价函数梯度下降一、简单线性回归(即一元线性回归)线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可。注意:1.因为是线性回归,所以学习到的函数为线性函数,即直线函数;2...原创 2018-09-21 09:07:51 · 25114 阅读 · 0 评论 -
机器学习第3天:多元线性回归
文章目录一、具体实现步骤第1步:数据预处理导入库导入数据集将类别数据数字化躲避虚拟变量陷阱拆分数据集为训练集和测试集第2步: 在训练集上训练多元线性回归模型第3步:在测试集上预测结果第4步:数据可视化二、知识点详解1. 关于多元线性回归一、具体实现步骤第1步:数据预处理导入库import pandas as pdimport numpy as np导入数据集dataset = pd...原创 2018-09-21 08:10:19 · 26488 阅读 · 2 评论 -
机器学习第2天:简单线性回归模型
数据学习第一天:数据预处理文章目录一、具体实现步骤第1步:数据预处理第2步:使用简单线性回归模型来训练训练集第3步:预测结果第4步:可视化训练集结果可视化测试集结果可视化二、可视化结果展示训练集结果可视化结果测试集结果可视化结果三、知识点详解1. 关于LinearRegression()2. 关于数据可视化一、具体实现步骤第1步:数据预处理import pandas as pdimpor...原创 2020-08-02 08:39:20 · 29073 阅读 · 2 评论 -
机器学习第1天:数据预处理
文章目录一、预备知识二、具体实现步骤第1步:导入库第2步:导入数据集第3步:处理丢失数据第4步:解析分类数据创建虚拟变量第5步:拆分数据集为训练集合和测试集合第6步:特征标准化三、知识点详解1. Imputer处理缺损数据2. 关于fit()、transform()、fit_transform()3. StandardScaler标准化4. OneHotEncoder处理的原因5. LabelEn...原创 2018-09-18 21:52:19 · 27787 阅读 · 9 评论 -
K折交叉验证(StratifiedKFold与KFold比较)
文章目录一、交叉验证二、K折交叉验证KFold()方法StratifiedKFold()方法一、交叉验证交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。–来自百科二、K折交叉验证KFold()方法KFold(): KFold 将所有的样例划分为原创 2020-08-13 11:16:23 · 5778 阅读 · 3 评论 -
逻辑回归实例--乳腺癌肿瘤预测
文章目录0.前言1.导入数据2.数据预处理3.准备训练测试数据4. 标准化数据5.逻辑回归模型6.性能分析7.十折交叉验证0.前言环境:Python3.6.5编译器:jupyter notebook代码|数据:微信公众号(明天依旧可好)中回复:第6天1.导入数据这篇文章中我们将预测乳腺癌肿瘤的良\恶性。import pandas as pdcolumn_names = ['Sample code number','Clump Thickness','Uniformity of Cel原创 2020-08-12 16:19:15 · 4351 阅读 · 1 评论 -
专题一:预处理数据(使用sklearn-preprocessing)
4.3.1. 标准化数据集的标准化(Standardization)对scikit-learn中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么这些机器学习算法的表现可能会比较差。在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化) 中有很多地方都假定了所有特征都是以0为中心而且它们的方差也具有相同的阶数。 如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法的目标函数中占据主导位置, 导致学习器原创 2020-08-09 11:41:43 · 530 阅读 · 0 评论 -
多元线性回归实例--预测1立方米混凝土抗压强度
文章目录一、前言二、前期准备工作1.导入数据2.探究关系三、多元线性回归1.训练模型2.计算得分3.可视化预测结果一、前言今天之所以选择这个主题是因为无意间看到另外一个博主做了这方面的预测,上一篇文章不是刚讲到多元线性回归这个点嘛,然后今天本来打算就这个点进行延伸,写一点相关知识点,然后觉得这个案例挺合适的,就准备拿它来进行扩展了。然而,今天一天都栽在这上面了。事情是这样的,我依照上一篇文章的步骤,依次导入数据、整理数据、探究各个因素之间的关系。在可视化这步时却发现发现影响混凝土抗压强度的八个因素与原创 2020-08-05 18:20:45 · 3725 阅读 · 4 评论 -
简单线性回归与多元线性回归实例--预测汽车的燃油效率
文章目录一、具体实现步骤1.导入数据2.探究数据关系3.提取数据4.拆分数据5.训练模型二、可视化结果展示1.训练集2. 测试集3.计算模型得分三、多元线性回归1.训练模型2.计算得分3.可视化预测结果------【机器学习第1天:线性回归(代码篇)】------------【机器学习第2天:线性回归(理论篇)】------写再前面: 这篇文章将通过线性回归模型预测汽车的燃油效率,文本所用到的数据以及代码可根据文末的联系方式向我索取一、具体实现步骤1.导入数据import pandas as原创 2020-08-04 13:38:25 · 4256 阅读 · 2 评论 -
线性回归实例-鸢尾花数据集
-----代码传送门----------数据传送门-----什么是线性回归线性回归模型——将数据拟合成一条直线。导入Iris鸢尾花数据集Iris鸢尾花数据集共有150条记录,分别是50条山鸢尾 (Iris-setosa)、50条变色鸢尾(Iris-versicolor)、50条维吉尼亚鸢尾(Iris-virginica)url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names原创 2020-08-02 11:39:29 · 13636 阅读 · 0 评论