机器学习
文章平均质量分 95
机器学习笔记+实战等
郑德帅
滴滴
展开
-
朴素贝叶斯实战应用---单词拼写检查器(结合html直观展示)
1.2.原创 2020-05-10 01:59:19 · 2082 阅读 · 0 评论 -
训练模型的保存与加载
1.目的: 将训练好的模型保存下来,已备下次使用,节省训练时间,提高效率2.API:from sklearn.externals import joblib保存:joblib.dump(rf,"test.pkl")加载:estimator = joblib.load("test.pkl")3.Python代码实现:# -*- coding: UTF-8 -...原创 2019-12-17 12:53:37 · 13138 阅读 · 0 评论 -
回归算法-线性回归分析-过拟合欠拟合岭回归
1.欠拟合与过拟合机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合。我们知道模型训练和测试的时候有两套数据,训练集和测试集。在对训练数据进行拟合时,需要照顾到每个点,而其中有一些噪点,当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上...原创 2019-12-17 00:37:32 · 13068 阅读 · 0 评论 -
回归算法-线性回归分析-正规方程和梯度下降
1.分类和回归最本质的区别 定量输出称为回归,或者说是连续变量预测; 定性输出称为分类,或者说是离散变量预测。 举个特别好理解的例子: 预测明天的气温是多少度,这是一个回归任务; 预测明天是阴、晴还是雨,就是一个分类任务。2.线性回归的定义是: 目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,...原创 2019-12-17 00:07:04 · 13790 阅读 · 0 评论 -
决策树与随机森林
1.决策树基本概念: 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。例子: ...原创 2019-12-15 23:34:44 · 15245 阅读 · 0 评论 -
KNN算法调优
1.所用方法: 交叉验证与网格搜索 交叉验证(为了让被评估的模型更加精确可信): 所有训练集数据分成N等分,几等分就是几折交叉验证 网格搜索:调参数 K-近邻:超参数K2.API: sklearn.model_selection.GridSearchCV: CV即cross validation GridSearchCV(e...原创 2019-12-15 14:49:59 · 13811 阅读 · 0 评论 -
KMeans算法( 聚类分析)
数据集在文末链接。也可留邮箱,看到会及时以邮件形式发送.1 聚类分析相关概念 1.1 聚类与分类 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中,...原创 2019-11-21 21:03:04 · 23911 阅读 · 15 评论 -
朴素贝叶斯算法及其实战
1.概率: 随机事件发生的可能性2.定义贝叶斯方法 贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比...原创 2019-12-15 02:28:08 · 13841 阅读 · 0 评论 -
K-近邻算法(KNN)
1.定义: k-近邻(KNN,k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。k-近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k-邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不...原创 2019-12-09 20:39:54 · 16426 阅读 · 0 评论 -
统计学离散型变量和连续型变量有什么区别?
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一...转载 2019-12-06 23:59:29 · 23255 阅读 · 0 评论 -
sklearn数据集 及 fetch_20newsgroups() data_home参数设置问题
1.sklearn数据集 1.1 数据集的划分: 训练集:构建模型, 建议75% 测试集:检验模型,评估模型是否有效。 建议25% 1.2 sklearn 数据集划分api 1.2.1sklearn.model_selection.train_test_spli...原创 2019-12-05 01:40:56 · 10435 阅读 · 0 评论 -
机器学习----数据特征预处理---数据降维
1.数据的降维方法 注意这里的意思不是说将多维数据降为低维数据,比如说,将三维降为二维这种。 而是减少相关度低的特征数据。2.具体方法: 1)特征选择 冗余: 部分特征的相关度高,容易消耗计算性能 噪声: 部分特征对预测结果有影响。 主要方法: ...原创 2019-12-04 19:07:14 · 7752 阅读 · 0 评论 -
特征工程全过程
文章目录简介 数据预处理 无量纲化 标准化 区间缩放法 标准化与归一化的区别 对定量特征二值化 对定性特征哑编码 缺失值计算 数据变换 回顾 特征选择 Filter 方差选择法 相关系数法 卡方检验 互信息法 Wrapper 递归特征消除法 Embedded 基于惩罚项的特征选择法 基...转载 2019-12-03 00:21:33 · 7392 阅读 · 0 评论 -
机器学习---数据特征预处理--归一化,标准化
1.什么是特征预处理 特征预处理就是通过一些转化函数将特征数据转换成更加适合算法模型的特征数据过程(无量纲化处理)2.预处理方法 : 归一化+标准化3.预处理API: sklearn.preprocessing4.数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩...原创 2019-12-03 00:42:47 · 8992 阅读 · 1 评论 -
文本特征提取
文本特征抽取分为两种情况,第一种是文本分析--->偏向于情感分析,第二种是文本分类-->朴素贝叶斯,主要用来对文章分类打标签等:1)CountVectorizer()返回词频矩阵 CountVectorizer(X) X:文本或者包含文本的可迭代对象 返回值:sparse矩阵 CountVectorizer...原创 2019-12-02 20:59:42 · 8418 阅读 · 0 评论 -
One_Hot(独热)编码分析
1.One-Hot编码 One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。2.One_Hot的产生 在...原创 2019-11-05 14:49:29 · 7774 阅读 · 0 评论 -
特征工程,字典特征提取
1.常用数据结构组成 特征值 + 目标值 2.特征工程 定义: 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性 目的:是为提高对位置数据的预测准确性 意义:直接影响预测结果 3.Scikit-learn 工具介绍 Python 语言的机器学习的库 先要有Numpy,pandas模块,之后...原创 2019-11-05 14:24:01 · 7273 阅读 · 0 评论