黑白python-CSDN博客

转载关于L1和L2正则的使用

L1范数更容易产生稀疏的权重，L2范数更容易产生分散的权重，原因一般从公式角度或者几何空间角度去解释从公式角度解释：深度学习书7.1节（202页左右）。带L1正则化的最优参数w=sign(w*) max{|w*|- a/H , 0}，其中w*代表未正则化的目标函数的最优参数，H代表海森矩阵，a是正则化系数，只要a足够大，w*就会在更大区间范围内使w变为0，而带L2正则化的最优参数w=H/(H+a...

2018-08-13 16:08:01 2390

原创机器学习如何应对数据量不足的情况

首选，尝试一下常用的线性分类器，比如SVM、LR这些，看训练误差和测试误差的差异，这个时候可能出现多种情况：如果训练误差远小于测试误差，说明分类器已经过拟合了，考虑如何避免过拟合。如果训练误差和测试误差差不多，但是测试误差太大，说明模型复杂度很可能不够。如果训练误差和测试误差差不多，而且测试误差已经足够小，结束。针对(1)，这个时候产生了严重的过拟合，这意味着样本数目不够，一般我们没法补充样本。那...

2018-03-26 10:12:53 10468

转载天池人工规则入门

1.人工规则是什么？规则是一种映射F()，人工规则指的是参赛者自定义的映射F()，模型规则指的是使用了一些常用的机器学习模型对应的映射F()2.哪些情况适合使用人工规则？相对于模型规则，人工规则更适用于训练集构建困难的问题，评测函数古怪的问题，业务场景丰富有效特征少的问题3.如何设计人工规则？不断思考问题任务中，目标的诱因：1）逻辑因果关系（boolean）2）数学表达式

2018-01-19 11:17:47 455

转载 lightgbm参数说明

关于lightgbm params的说明# 配置目标是用于训练task= train# 训练方式boosting_type= gbdt#目标二分类objective= binary# 损失函数metric= binary_logloss,auc# frequence for metric outputmetric_f

2018-01-17 11:23:45 17379

转载 python数据预处理

sklearn preprocessingpython数据预处理一、标准化，均值去除和按方差比例缩放1. scale 零均值单位方差调用scale()函数之后，数据集对应每个特征列数值的均值为0，方差为1.2.StandardScaler计算训练集的平均值和标准差，以便测试数据集使用相同的变换。scale和StandardScaler可以用于回归模型中的目标值处理。二、将数据特征缩放至某一范围(

2018-01-02 15:46:35 1226

原创 python数据清洗步骤（待补全）

Python数据清洗步骤：1.对dataframe中NAN值的清洗：利用df.isnull().any()验证df中是否存在NAN值利用df.isnull().sum()统计df每一列对应的NAN值利用df.isnull().sum().sum()统计dfNAN值的数量...

2017-12-22 11:08:09 1020

原创 python如何导入.xlsx

目前在编程过程中发现两种较为实用的python导入.xlsx表格的方式：1.import pandas as pd df=df=pd.read_excel('file path')导入后为dataframe格式，比较方便操作。但有时导入的数据可能会出现问题。2.import xlrd（需提前安装好xlrd包） data=xlrd.open_workbook('file p

2017-12-19 11:06:59 24139

baidu_33289052的博客