![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
大屁孩。
世界从来不平等,你有多努力,就有多特殊。
展开
-
欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离
转载自:https://baijiahao.baidu.com/s?id=1577090844304882120&wfr=spider&for=pc欧氏距离(Euclidean Distance)欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。欧氏距离二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:...转载 2019-03-05 21:24:05 · 3775 阅读 · 0 评论 -
机器学习:利用朴素贝叶斯根据人员姓名预测性别及拉普拉斯平滑处理
准备使用的数据集结构(共120000条数据):. 需导入的模块:import pandas as pdimport mathfrom collections import defaultdict原创 2019-03-23 15:29:55 · 2295 阅读 · 5 评论 -
信息熵、信息增益、信息增益比
信息熵“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为:Ent(D)的值越小,则D的纯度越高。如果上面的解释不容易理解,那么下面再通俗地解释一下:首先来看一下信息熵这个公式在数轴上的表示:可以看到,在概率为0.5的时候,信息熵是最大的(为1)。我们可以把信息熵理解为“不确定性”,当概率为0.5...原创 2019-04-02 21:48:54 · 5054 阅读 · 1 评论 -
CART分类回归_对离散型和连续型特征列的选择
CART分类回归树分类与回归树是二叉树,可以用于分类,也可以用于回归问题。区别:分类树输出的是样本的类别, 而回归树输出的是一个实数。对离散型和连续型特征列的选择一、CART分类树(待预测结果为离散数据):选择具有最小Gain_GINI的属性及其属性值,作为最优分裂属性以及最优分裂属性值。Gain_GINI值越小,说明二分之后的子样本的“纯净度”越高,即说明选择该属性(值)作为分裂属性(...原创 2019-04-16 21:41:41 · 4668 阅读 · 2 评论 -
余弦相似度_公式及推导_案例
定义两个向量间的余弦值可以通过使用欧几里得点积公式求出:给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:这里的Ai、Bi分别代表向量A和B的各分量。给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。公式推导如果对于上述的公式不是很理解,那就...原创 2019-04-25 20:16:36 · 7816 阅读 · 0 评论