随着互联网的不断发展,大数据分析算法让众多企业在用户分析上获得了很大的突破。今天,我们就一起来了解一下,数据分析领域常见的算法都有哪些。
1.线性回归
线性回归可能是统计学和机器学习中知名和易理解的算法之一。
由于预测建模主要关注小化模型的误差,或者以可解释性为代价来做出准确的预测。我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。
线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。
2.逻辑回归
逻辑回归是机器学习从统计领域借鉴的另一种技术。这是二分类问题的专用方法(两个类值的问题)。
逻辑回归与线性回归类似,这是因为两者的目标都是找出每个输入变量的权重值。与线性回归不同的是,输出的预测值得使用称为逻辑函数的非线性函数进行变换。
逻辑函数看起来像一个大S,并能将任何值转换为0到1的范围内。这很有用,因为我们可以将相应规则应用于逻辑函数的输出上,把值分类为0和1(例如,如果IF小于0.5,那么输出1)并预测类别值。
3.线性判别分析
传统的逻辑回归仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(LinearDiscriminantAnalysis,简称LDA)是选的线性分类技术。
LDA的表示非常简单。它由你的数据的统计属性组成,根据每个类别进行计算。对于单个输入变量,这包括:
每类的平均值。
跨所有类别计算的方差。
4.分类和回归树
决策树是机器学习的一种重要算法。
决策树模型可用二叉树表示。对,就是来自算法和数据结构的二叉树,没什么特别。每个节点代表单个输入变量(x)和该变量上的左右孩子(假定变量是数字)。
5.朴素贝叶斯
朴素贝叶斯是一种简单但极为强大的预测建模算法。
该模型由两种类型的概率组成,可以直接从你的训练数据中计算出来:1)每个类别的概率;2)给定的每个x值的类别的条件概率。一旦计算出来,概率模型就可以用于使用贝叶斯定理对新数据进行预测。当你的数据是数值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。
节选:网络大数据
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!