大数据
谁能告诉我怎么取网名
这个作者很懒,什么都没留下…
展开
-
机器学习中一些常用方法的说明
持续更新。。。欢迎批评 很多方法讲的都是原理,虽然讲的很对,但是看不懂,也不说这个东西是干嘛用的,就知道使用而使用,知道是用来干嘛的,才想去看原理1.归一化、正则化、标准化归一化:防止数据倾斜,导致所占比重过大。将原始数据线性化的方法转换到[0 1]的范围,该方法实现对原始数据的等比例缩放。通过利用变量取值的最大值和最小值(或者最大值)将原始数据转换为界于某一特定范围的数据,从而...原创 2019-10-26 17:10:21 · 317 阅读 · 0 评论 -
sklearn与其他算法集合使用步骤
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你...转载 2019-10-25 16:08:01 · 391 阅读 · 0 评论 -
算法--分类算法
文章纯属个人愚见,欢迎指正!分类:分类就是通过一些学习(监督学习),弄错一个分类器或者说分类模型,当你把一个参数(数据)放入时,可以告诉你你这参数(数据)应该放到哪个类,类似于猫狗分类。一:朴素贝叶斯(Naive Bayes, NB)http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html二:Lo...原创 2019-08-18 22:26:41 · 2362 阅读 · 0 评论 -
算法的作用 --优化算法
注:单纯个人愚见,只是大概讲个作用,欢迎指正!详细的网上许多大牛都有解释。优化算法种类:一:最小二乘法函数真值与估计值之间残差最小。是一种数学优化技术。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。https://www.cnblogs.com/softlin/p/5815531.html。例...原创 2019-08-18 22:03:40 · 1562 阅读 · 0 评论 -
算法之路--最小二乘法(三)
https://www.cnblogs.com/softlin/p/5815531.htmlhttps://www.zhihu.com/question/37031188原创 2019-06-11 19:53:11 · 223 阅读 · 0 评论 -
算法之路--极大似然(二)
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。极大似然估计可以拆成三个词,分别是“极大”、“似然”、“估计”,分别的意...原创 2019-06-11 18:06:56 · 287 阅读 · 0 评论 -
算法之路--高斯分布(一)
正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。可以判断各种情况出现的概率,进而指导下一步的操作随机变量是取值有多种可能并且取每个值都有一个概率的变量。它分为离散型和连续型两种,离散型随机变量的取值为有限个或者...原创 2019-06-10 20:22:30 · 8228 阅读 · 0 评论 -
算法之路--朴素叶贝斯(七)
转载 :https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html#!comments朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条...转载 2019-06-20 11:47:20 · 744 阅读 · 0 评论 -
算法之路--线性回归(五)
一:线性回归模型的优点:1.建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。2.可以根据系数给出每个变量的理解和解释。3.对异常值很敏感。二:缺点1.只能用于拟合线性数据三:线性回归的用处线性回归有很多实际用途。分为以下两大类: 如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个...原创 2019-06-10 09:59:39 · 2382 阅读 · 0 评论 -
MR CountWord详解
转载自https://www.cnblogs.com/gaopeng527/p/5436820.html1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与...转载 2019-03-06 15:31:25 · 481 阅读 · 0 评论