九道门丨数据分析师必须知道的十大算法(一)

数据分析师们在解决任何问题时都需要一套技能,在进行数据分析时,我们必须了解用于解决不同类型问题的各种机器学习算法,因为某一种算法可能并不是适用于所有类型问题,我们需要找到一个最合适的。
这些算法可从我们正在使用数据集中找到各种不同的应用,例如预测,分类,聚类等。顶级数据分析算法

1.线性回归线性回归方法用于通过使用自变量的值来预测因变量的值,线性回归模型适用于预测连续量的值,线性回归模型以方程式给出的直线表示数据集的输入变量(x)和输出变量(y)之间的关系如:y = b0 + b1x在这个式子中,y是我们要预测其值的因变量,x是自变量,其值用于预测因变量,b0和b1是常数,其中b0是Y轴截距,b1是斜率。
该方法的主要目的是找到b0和b1的值,以找到将覆盖或最接近大多数数据点的最佳拟合线。

  1. Logistic回归线性回归通常用于表示某些连续值之间的关系。
    但是,Logistic回归则适用于离散值。
    逻辑回归在解决二元分类问题中应用非常广泛,即当一个事件只有两种可能性时,该事件将发生或将不会发生(0或1)。
    因此,在Logistic回归中,我们通过使用称为logistic函数的非线性变换函数将预测值转换为介于0到1范围内的值。
    逻辑函数产生S形曲线,因此也称为等式给出的Sigmoid函数,
    如?(x)= 1/1 + e ^ -xLogistic回归的方程是P(x)= e ^(b0 + b1x)/ 1 + e ^(b0 + b1x)其中b0和b1是系数,逻辑回归的目标是找到这些系数的值。

3.决策树

决策树有助于解决帮助数据分析师们分类和预测问题,它可以轻松理解数据,以提高预测的准确性。
决策树的每个节点代表一个要素或属性,每个链接代表一个决策,每个叶节点拥有一个类标签,即结果。
它的的缺点是存在过度拟合的问题,基本上,这两种数据分析算法最常用于实现决策树。
ID3(迭代二分法3)算法使用熵和信息增益作为决策指标。Cart(分类和回归树)算法使用基尼系数作为决策指标。

4.朴素贝叶斯朴素贝叶斯算法有助于建立预测模型,当我们要计算将来某个事件发生的概率时,我们会使用此数据分析算法。
在这里,我们假设已经知道另一个事件已经发生,朴素贝叶斯算法的假设是每个特征都是独立的,并且对最终预测有各自的贡献。
朴素贝叶斯定理表示为:P(A | B)= P(B | A)P(A)/ P(B)其中A和B是两个事件。
P(A | B)是后验概率,即给定B已经发生的A的概率。
P(B | A)是似然性,即在已经存在A的情况下B的概率。
P(A)是概率之前的类别。P(B)是预测变量先验概率。

  1. KNN该数据分析算法同时使用分类和回归问题,KNN算法将完整的数据集视为训练数据集。

使用KNN算法训练模型后,我们就可以尝试预测新数据点的结果了。
在这里,KNN算法搜索整个数据集以标识该数据点的k个最相似或最接近的近似值。
然后根据这k个实例预测结果,为了找到数据实例的近似值,我们可以使用各种距离度量,例如欧几里得距离,汉明距离等。 为了更好地理解,让我们考虑以下示例。
在这里,我们分别用圆形和正方形表示了两个类A和B。
让我们假设k的值为3。
现在,我们将首先找到最接近新数据项的三个数据点,并将它们围成一个虚线圆。
在这里,新数据项的三个最接近点属于A类。
因此,可以说新数据点也将属于A类。
现在你们可能都在想我们如何假设k = 3,k值的选择是非常关键的,我们应该采用k的值,使其既不会太小也不会太大,另一种更简单的方法是使k =√n,其中n是数据点的数量。

剩下的5种我们明天继续说哦~关注“九道门聊数据”多了解数据分析行业的发展哦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值