![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
GitzLiu
这个作者很懒,什么都没留下…
展开
-
非参数估计---直方图法、Kn近邻估计法、Parzen窗法
当需要估计的概率密度函数的形式未知,比如我们并不能知道样本的分布形式时,我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计,而应该用非参数估计方法。这里就介绍三种非参数估计方法。 需要知道的是,作为非参数方法的共同问题是对样本数量需求较大,只要样本数目足够大众可以保证收敛于任何复杂的位置密度,但是计算量和存储量都比较大。当样本数很少时,如果能够对密度函数有先验认识,则参数估计能取得更好的估...转载 2018-04-03 11:15:09 · 12279 阅读 · 2 评论 -
LR和GBDT模型训练
【待补充】一、LR模型训练1、特征分析分析每个特征和标签的关系【放个链接,在别的博客里写】2、分析每个特征的基本特点步骤1是看相关性,是为了筛选特征,删除不必要特征本步分析特征基本特点是在选完特征基础上,为数据处理做准备【放个链接?】3、根据特征的特点,以及模型的输入要求 对数据集进行整理包括:处理缺失值get_dummiesbins(cut 或者 qcut)保存训练...原创 2019-06-12 20:00:40 · 1230 阅读 · 0 评论 -
DNN实战-猫狗分类
深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片,我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元,经过 Softmax 输出概率值P,若 P>0.5,则判断为猫(正类),若 P≤0.5,则判断为非猫(负类)。对于整个神经网络模型,我们可以选择使用不同层数,以此来比较模型分类的性能,从而得到较深的神经网...原创 2018-11-21 17:58:31 · 4974 阅读 · 7 评论 -
激活函数-sigmod tanh relu leaky-relu
神经网络每个神经元都需要激活函数(Activation Function)来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数,也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x),并作个简单比较。观察 Sigmoid 函数和 tanh 函数,我们发现有这样一个问题,就是当 |z| 很大的时候,激活函数的斜率(梯度)很小。因此,在这个区域内,梯度下降算法会运行得比较慢...原创 2018-11-21 16:11:52 · 2860 阅读 · 0 评论 -
预测Facebook广告点击量的实践经验(翻译)
由于没法导出为md格式,上传的CSDN,只能放我翻译的链接了。分享链接http://note.youdao.com/noteshare?id=866cda0a11142307c27b6c072a79d3eb&sub=A8E3505A71D242A3802C82D6921535CB...翻译 2018-10-18 22:01:15 · 982 阅读 · 0 评论 -
Pandas中loc用法——索引、补全缺失值
loc——通过行标签索引行数据 loc[1]表示索引的是第1行(index 是整数)import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) pri...原创 2018-09-07 11:41:27 · 4430 阅读 · 0 评论 -
过拟合(正则化处理)- 欠拟合 处理方法
1 过拟合过拟合——过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题1 、方法一:尽量减少选取变量的数量2、正则化正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级这个方法非常有效,当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样,我们可以有很多特征变量,其中每一个变量都是有用的,因此我们不希望把它们删掉,...原创 2018-09-17 20:36:50 · 1458 阅读 · 0 评论 -
模型融合-Stacking
这篇是作为我的笔记,所以写的可能不易大家阅读。这是我理解的Stacking方法 结合下面这站图一起来看 看懂这两张图,stacking就没啥问题了。感觉正常情况下,stacking方法应该是很有效。 注意几点: 使用的是 predict_probe() 方法,而非 predict() 方法,因此,若model没有 predict_probe() 方法,则无法使用stacki...原创 2018-09-12 23:26:56 · 1879 阅读 · 0 评论 -
机器学习——画图方法
本篇博客与Titanic博客相关联,是其第2部分内容,由于涉及大量通过可视化图形 进行数据预览、分析的地方,因此独立成篇,作为画图方法的笔记。1、预览数据集加载数据集# -*- coding:utf-8 -*-import numpy as np #科学计算import pandas as pd #数据分析from pandas import Series, D...原创 2018-09-12 22:48:50 · 5049 阅读 · 0 评论 -
Kaggle——高分泰坦尼克灾难生存预测详细讲解(LR、Bagging)
前言 老规矩,先上项目完整代码,再详细讲解代码每一段内容。博文结尾附Github地址,里面包含我在完成本项目过程中,不同版本的代码。讲解不清的地方请多包涵,我们开始吧! [ Kaggle泰坦尼克号灾难预测竞赛地址 ] 0、泰坦尼克号灾难生存预测代码这里写代码片...原创 2018-09-06 23:30:30 · 5057 阅读 · 3 评论 -
学习曲线-Learning Curve
学习曲线是什么?【简单来说】学习曲线(learning curve)来判断模型状态:过拟合欠拟合【详细来说】学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以帮助我们判断模型现在所处的状态:过拟合(overfiting / high variance) or ...原创 2018-09-11 23:29:09 · 26823 阅读 · 6 评论 -
matplotlib常用画图方法
【matplotlib】Series.plot()参数表参数 说明 label 用于图例的标签 ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot style 将要传给matplotlib的风格字符串(for example: ‘ko–’) alpha 图表的填充不透明(0...原创 2018-08-21 22:11:08 · 1020 阅读 · 0 评论 -
Pandas库qcut( )与cut( )的用法与区别
1、pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的>>> factors = np.random.randn(9)[ 2.12046097 0.24486218 1.64494175 -0.27307614 -2.11238291 2.15422205 -0.46832859 0.16444572 1.525...原创 2018-08-30 22:02:38 · 2968 阅读 · 0 评论 -
随机森林回归 sklearn.ensemble.RandomForestRegressor
随机森林回归:随机森林是一种目标估计,通过对数据集上的部分样本形成一个分类决策树,并使用averaging去提高预测准确率和控制过拟合发生。class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_l...原创 2018-08-22 23:10:17 · 9286 阅读 · 0 评论 -
sklearn中predict与predict_proba区别
predict_proba 返回的是一个 n 行 k 列的数组,列是标签(有排序), 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。predict 直接返回的是预测 的标签。具体见下面示例:# conding :utf-8 from sklearn.linear_model import LogisticRegression...原创 2018-08-22 22:49:05 · 3953 阅读 · 0 评论 -
kaggle-旧金山犯罪分类详细讲解 (朴素贝叶斯、逻辑回归、随机森林方法)
前言 记得一位老先生说,如果你所讲的知识不能让一个8岁孩子听懂,说明你还是没真正掌握。 本文秉持这样的理念,先给出全部代码,让读者一窥全貌,再逐段详细讲解。旧金山犯罪分类kaggle地址0、旧金山犯罪分类代码import pandas as pdimport numpy as np# 1、载入数据train = pd.read_csv('dataset/...原创 2018-05-06 18:01:18 · 7328 阅读 · 5 评论 -
Hive学习总结
http://note.youdao.com/noteshare?id=73cf7b73fac3c713f8d1c2847ae89530&sub=B7DD177CAB404E3280060A0F4FC6E17A原创 2019-06-12 20:06:47 · 416 阅读 · 0 评论