机器学习2
qq_43498494
这个作者很懒,什么都没留下…
展开
-
机器学习第8天---逻辑回归---k-means原理以及案例
文章目录模型的保存与加载已线性回归为例读取数据文件分类算法---逻辑回归定义,损失函数,优化与线性回归比较应用损失函数模型的保存与加载模型训练好后之后再用时肯定不用再重新训练了。可以用sklearn将我们的模型给保存下来。加载相当于读取序列化后的文件。pkl是sklearn固定的保存文件的格式,是一个二进制文件,保存后返回就是保存的模型。已线性回归为例读取数据文件此时不用再去训练模型了,即根据读取的模型参数直接去预测。分类算法—逻辑回归定义,损失函数,优化与线性回归比较应用原创 2020-05-23 07:59:31 · 680 阅读 · 0 评论 -
机器学习第五天---朴素贝叶斯算法原理---分类模型评估
文章目录朴素贝叶斯算法原理朴素贝叶斯算法原理将三篇文章划分为三个类别的概率是多少,即占得比例。即贝叶斯思想,预测你这篇文档属于这10个类别的每个概率是多少,找出最大的概率即可。求在给定文档的词下,属于哪个类别的概率。之后可以选择每篇文章的重要性大的前几个词,可以找到一些比较重要的词进行统计了。每篇文章都可以将重要的词拿出来,就可以组成一个新的词列表。加上拉普拉斯平滑,保证某个文档属于某一类别的概率不会为0了。...原创 2020-05-18 11:05:27 · 687 阅读 · 0 评论 -
机器学习第五天---k-近邻算法
文章目录k-近邻算法k-近邻算法思想案例预测入住位置k-近邻算法需要做标准化。k-近邻算法思想有个人来了放在某一个位置上,但是不知道处于哪个区,有微信,将那昌平,朝阳,石景山三个人拉进群里,你们几个发一下距离我的距离定位,这样5个人处于的区以及位置都告诉了这个人,老王获得后,就可以知道自己所在区了,因为每个人到老王有个距离,我可以定位找到这个距离。即既然不知道我处于哪,但是可以找到离我最近的那个人,若小明距离老王近,且小明在朝阳区,那老王也在朝阳区了,即老王可以通过这些条件特征找到自己的目标值。原创 2020-05-17 12:33:30 · 141 阅读 · 0 评论 -
机器学习---数据的降维---机器学习算法分类以及开发流程
文章目录特征选择主成分分析--降维![在这里插入图片描述](https://img-blog.csdnimg.cn/20200515100744490.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNDk4NDk0,size_16,color_FFFFFF,t_70)特征选择也作为机器学习的数据输入。有一些特征不需要,即可原创 2020-05-16 11:05:45 · 234 阅读 · 0 评论 -
机器学习2第二天---特征预处理
文章目录特征预处理-归一化归一化以及标准化对比标准化标准化总结以及缺失值处理缺失值处理注意:并不是所有的算法都需要进行标准化与归一化。根据不同的算法来的。特征预处理-归一化归一化以及标准化对比最小最大缩放对结果影响:即有异常点,即数据中有一些点不对,就会影响归一化公式中的最小最大值,导致每一列的最大值都改变了。因此归一化对于有异常点的数据处理不是太好。鲁棒性:即稳定性,适应能力要好。标准化数据分散方差大,数据集中,方差越小。标准化原创 2020-05-15 09:39:01 · 173 阅读 · 0 评论 -
机器学习2----第一天
文章目录机器学习概述数据集的组成数据集的结构可以用的现成数据集常用的库网址常用数据集的结构组成机器学习概述数据集的组成格式不用mysql原因:1、对于存储读取几M或几G文件数据时,读取速度慢。2、格式不太符合机器学习要求的数据格式,还需要自己进一步处理数据格式。所以一般企业中获取数据不在数据库中获取。对于mongodb数据库,读取性能好,但是大多数都是以json格式,但是json格式又不太适合机器学习,所以数据还是得处理。因此大多数数据以文件形式存储,如存储在csv文件中。panda原创 2020-05-14 10:54:02 · 479 阅读 · 0 评论