![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
jasonwang_
all or nothing
展开
-
Perplexity困惑度解释
引用wiki上的话“A model of an unknown probability distributionp, may be proposed based on a training sample that was drawn fromp. Given a proposed probability modelq, one may evaluateqby asking how well it predicts a separate test samplex1,x2, ...,xNa...原创 2020-06-01 11:13:17 · 948 阅读 · 0 评论 -
Pandas DataFrame——按行构建
当我们从复杂表格提取出逐个样本的特征时,继而构成一条样本并组成训练或测试集时,比较容易想到的一点就是一行一行地构建DataFrame。而pandas.Dataframe()容许的输入有numpy ndarray (structured or homogeneous), dict, or DataFrame这些;其中,我采用了从字典构建,最主要原因就是可以省去给每列填写列明的步骤,Dataf原创 2017-12-12 11:25:15 · 3478 阅读 · 0 评论 -
Python Dataframe ——指定多列去重、求差集
1)去重指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重。Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组。具体代码如下: >>>import pandas as pd >>>data={'state':[1,1,原创 2017-12-13 22:14:04 · 40620 阅读 · 5 评论 -
LR 如何使数据点对分类的影响权重不同
最近看到不少讨论Linear SVM和LR的区别的内容,很多都提到两者的损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。下面就是对于这句话的个人理解。先说SVM,比较好理解,在用拉格朗日乘子法得到其“对偶问题”后,因为需要满足KKT条件,对任意训练样本(xi,yi),总有拉格朗日乘子 = 0或yif(xi) = 1。若拉格朗日乘子大于0,则必有原创 2018-04-30 18:44:14 · 1515 阅读 · 0 评论 -
LightGBM 直方图优化算法
给出下面这个广泛使用 直方图优化算法的ppt,本文是对该张ppt的解释。直方图优化算法需要在训练前预先把特征值转化为bin,也就是对每个特征的取值做个分段函数,将所有样本在该特征上的取值划分到某一段(bin)中。最终把特征取值从连续值转化成了离散值。下面是训练过程中利用直方图寻找最佳分割点的算法。(不需要像预排序一样,把特征的所有取值进行排序) 首先,对于当前模型的每个叶子节点,需要遍历所...原创 2018-06-27 21:31:36 · 13154 阅读 · 12 评论