自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 关于L1和L2正则的使用

L1范数更容易产生稀疏的权重,L2范数更容易产生分散的权重,原因一般从公式角度或者几何空间角度去解释从公式角度解释:深度学习书7.1节(202页左右)。带L1正则化的最优参数w=sign(w*) max{|w*|- a/H , 0},其中w*代表未正则化的目标函数的最优参数,H代表海森矩阵,a是正则化系数,只要a足够大,w*就会在更大区间范围内使w变为0,而带L2正则化的最优参数w=H/(H+a...

2018-08-13 16:08:01 2390

原创 机器学习如何应对数据量不足的情况

首选,尝试一下常用的线性分类器,比如SVM、LR这些,看训练误差和测试误差的差异,这个时候可能出现多种情况:如果训练误差远小于测试误差,说明分类器已经过拟合了,考虑如何避免过拟合。如果训练误差和测试误差差不多,但是测试误差太大,说明模型复杂度很可能不够。如果训练误差和测试误差差不多,而且测试误差已经足够小,结束。针对(1),这个时候产生了严重的过拟合,这意味着样本数目不够,一般我们没法补充样本。那...

2018-03-26 10:12:53 10468

转载 天池人工规则入门

1.人工规则是什么?规则是一种映射F(),人工规则指的是参赛者自定义的映射F(),模型规则指的是使用了一些常用的机器学习模型对应的映射F()2.哪些情况适合使用人工规则?相对于模型规则,人工规则更适用于训练集构建困难的问题,评测函数古怪的问题,业务场景丰富有效特征少的问题3.如何设计人工规则?不断思考问题任务中,目标的诱因:1)逻辑因果关系(boolean)2)数学表达式

2018-01-19 11:17:47 455

转载 lightgbm参数说明

关于lightgbm params的说明# 配置目标是用于训练task= train# 训练方式boosting_type= gbdt#目标 二分类objective= binary# 损失函数metric= binary_logloss,auc# frequence for metric outputmetric_f

2018-01-17 11:23:45 17379

转载 python数据预处理

sklearn preprocessingpython数据预处理一、标准化,均值去除和按方差比例缩放1. scale 零均值单位方差 调用scale()函数之后,数据集对应每个特征列数值的均值为0,方差为1.2.StandardScaler计算训练集的平均值和标准差,以便测试数据集使用相同的变换。scale和StandardScaler可以用于回归模型中的目标值处理。二、将数据特征缩放至某一范围(

2018-01-02 15:46:35 1226

原创 python数据清洗步骤(待补全)

Python数据清洗步骤:1.对dataframe中NAN值的清洗:利用df.isnull().any()验证df中是否存在NAN值利用df.isnull().sum()统计df每一列对应的NAN值利用df.isnull().sum().sum()统计dfNAN值的数量...

2017-12-22 11:08:09 1020

原创 python如何导入.xlsx

目前在编程过程中发现两种较为实用的python导入.xlsx表格的方式:1.import pandas as pd   df=df=pd.read_excel('file path')导入后为dataframe格式,比较方便操作。但有时导入的数据可能会出现问题。2.import xlrd(需提前安装好xlrd包)  data=xlrd.open_workbook('file p

2017-12-19 11:06:59 24139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除