机器学习
文章平均质量分 91
通过对算法原理的深入理解,提高算法的应用能力,同时持续做案例分析模拟实战情景,积累业务经验。
学海无涯~
这个作者很懒,什么都没留下…
展开
-
用户画像实战:基于Kmeas的电商潜在客户识别
电商潜在客户识别前言1、潜在客户识别概述如今,识别潜在客户是非常关键的,这样才能有更多的数据驱动策略来目标客户。因此,在客户智能领域,客户细分是一个核心应用程序,其中人们根据不同的属性(可能是购买习惯或行为习惯)进行聚类。它是无监督学习的一个应用,机器学习模型试图将相似的数据点聚集在一起,使得簇内距离最小,簇间距离最大。在这里,我使用的数据集包含了人们在商场的购买属性。数据集很简单,有5个特征,即客户ID、年龄、性别、信用评分和收入。2、分析目标在精准营销中,我们不仅要聚焦核心用户的需求,为我原创 2021-01-16 19:24:29 · 3063 阅读 · 1 评论 -
04 决策树
决策树特征选择1、策略:选择信息增益/信息增益比最大的特征2、熵与信息增益(1)熵熵表示的是随机变量不确定性的度量P(X=xi)=pi,i=1,2,…,nP(X= x_i) = p_i,i = 1,2,\dots,nP(X=xi)=pi,i=1,2,…,n,为取有限个值的离散随机变量X的概率分布,随机变量X的熵:H(X)=−∑i=1npilogpiH(X) = - \sum_{i=1}^n p_i \log p_iH(X)=−i=1∑npilogpi熵越大,随机变量的不原创 2021-01-14 20:25:59 · 149 阅读 · 1 评论 -
02 K近邻方法
K近邻方法模型不具有显式的学习过程,表现为k近邻法的模型对特征空间进行划分形成一个又一个的单元,单元中的实例的类标记是确定的。1、距离的度量闵氏距离Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣P)1P L_p(x_i,x_j) = (\sum_{l=1}^n |x_i^{(l)} - x_j^{(l)}|^{P})^{\frac{1}{P}} Lp(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣P)P1p =1 ,曼哈顿距离:L1(xi,xj)=原创 2021-01-14 20:04:59 · 138 阅读 · 0 评论 -
01 感知机方法
感知机方法模型f(x)=sign(w⋅x+b)f(x) = sign(w·x +b)f(x)=sign(w⋅x+b)策略损失函数极小化minw,bL(w,b)=−∑xi∈Myi(w⋅xi+b)\begin{aligned}&\min_{w,b} L(w,b) = -\sum_{x_i \in M} y_i(w·x_i +b)\end{aligned}w,bminL(w,b)=−xi∈M∑yi(w⋅xi+b)损失函数:将损失函数定义为分类点到超平面S的距离总和原创 2021-01-14 20:02:39 · 92 阅读 · 0 评论 -
03 朴素贝叶斯方法
一、概述1、基本原理朴素贝叶斯法(navie Bayes)法式基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯法是一种基于属性集和类变量的概率关系建模方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入和输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率,将最大后验概率的类作为x的类别,由此求得输出y。本文介绍朴素贝叶斯分类器的由来。首先介绍贝叶斯定理,它是一种把类的先验知识与从数据中收集的新证据相结合的统计原理;然后解释贝叶斯定理在分类问题中的应用,接下来介原创 2021-01-10 22:41:29 · 256 阅读 · 0 评论 -
01 什么是机器学习
在世界的每个角落,每天都在采集和存储数以TB级的数据。当我们收集到数据后,我们就开始观察他们,思考能后用这些数据做些什么。我们面对的是一种预测问题:比如我们收集电商平台用户的购买数据,我们想要预测一个用户将要购买什么商品。我们认为能够预测出来的原因在于,看上去近似的人,他们的行为也具有相似性。那么我们就可以采用有监督学的方法来解决问题,也就是将已知正确结果的样本提供给学习器,供机器学习器中的规则和找到正确答案的方法。1、如果数据有质量,地球将变成黑洞1.1 数据的应用数据的存量是很大的,我们面对的挑战原创 2020-12-07 12:38:07 · 186 阅读 · 0 评论