2021年01月_学海无涯～

05月 04月 01月

原创用户画像实战：基于Kmeas的电商潜在客户识别

电商潜在客户识别前言1、潜在客户识别概述如今，识别潜在客户是非常关键的，这样才能有更多的数据驱动策略来目标客户。因此，在客户智能领域，客户细分是一个核心应用程序，其中人们根据不同的属性（可能是购买习惯或行为习惯）进行聚类。它是无监督学习的一个应用，机器学习模型试图将相似的数据点聚集在一起，使得簇内距离最小，簇间距离最大。在这里，我使用的数据集包含了人们在商场的购买属性。数据集很简单，有5个特征，即客户ID、年龄、性别、信用评分和收入。2、分析目标在精准营销中，我们不仅要聚焦核心用户的需求，为我

2021-01-16 19:24:29 3067 1

原创 04 决策树

决策树特征选择1、策略：选择信息增益/信息增益比最大的特征2、熵与信息增益（1）熵熵表示的是随机变量不确定性的度量P(X=xi)=pi，i=1，2，…,nP(X= x_i) = p_i，i = 1，2，\dots,nP(X=xi)=pi，i=1，2，…,n，为取有限个值的离散随机变量X的概率分布,随机变量X的熵:H(X)=−∑i=1npilog⁡piH(X) = - \sum_{i=1}^n p_i \log p_iH(X)=−i=1∑npilogpi熵越大，随机变量的不

2021-01-14 20:25:59 149 1

原创 02 K近邻方法

K近邻方法模型不具有显式的学习过程，表现为k近邻法的模型对特征空间进行划分形成一个又一个的单元，单元中的实例的类标记是确定的。1、距离的度量闵氏距离Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣P)1P L_p(x_i,x_j) = (\sum_{l=1}^n |x_i^{(l)} - x_j^{(l)}|^{P})^{\frac{1}{P}} Lp(xi,xj)=(l=1∑n∣xi(l)−xj(l)∣P)P1p =1 ，曼哈顿距离:L1(xi,xj)=

2021-01-14 20:04:59 139

原创 01 感知机方法

感知机方法模型f(x)=sign(w⋅x+b)f(x) = sign(w·x +b)f(x)=sign(w⋅x+b)策略损失函数极小化min⁡w,bL(w,b)=−∑xi∈Myi(w⋅xi+b)\begin{aligned}&\min_{w,b} L(w,b) = -\sum_{x_i \in M} y_i(w·x_i +b)\end{aligned}w,bminL(w,b)=−xi∈M∑yi(w⋅xi+b)损失函数：将损失函数定义为分类点到超平面S的距离总和

2021-01-14 20:02:39 93

原创 03 朴素贝叶斯方法

一、概述1、基本原理朴素贝叶斯法（navie Bayes)法式基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯法是一种基于属性集和类变量的概率关系建模方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入和输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率，将最大后验概率的类作为x的类别，由此求得输出y。本文介绍朴素贝叶斯分类器的由来。首先介绍贝叶斯定理，它是一种把类的先验知识与从数据中收集的新证据相结合的统计原理；然后解释贝叶斯定理在分类问题中的应用，接下来介

2021-01-10 22:41:29 256