GitzLiu

喜欢喵的汪星人ʕ •ᴥ•ʔ~

自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 数据分析----LR和GBDT模型训练

本篇是 LR和GBDT模型训练【放链接】 的附属篇 一、常用库 # -*- coding: UTF-8 -*- import numpy as np from numpy import median import pandas as pd import matplotlib as mpl im...

2019-07-04 19:08:26

阅读数 93

评论数 0

原创 Hive学习总结

http://note.youdao.com/noteshare?id=73cf7b73fac3c713f8d1c2847ae89530&sub=B7DD177CAB404E3280060A0F4FC6E17A

2019-06-12 20:06:47

阅读数 66

评论数 0

原创 LR和GBDT模型训练

【待补充】 一、LR模型训练 1、特征分析 分析每个特征和标签的关系 【放个链接,在别的博客里写】 2、分析每个特征的基本特点 步骤1是看相关性,是为了筛选特征,删除不必要特征 本步分析特征基本特点是在选完特征基础上,为数据处理做准备 【放个链接?】 3、根据特征的特点,以及模型的输入要求 对数据...

2019-06-12 20:00:40

阅读数 140

评论数 0

原创 记录-mysql操作-crontab操作

一 mysql基本操作 show databases; use [数据库名字] show tables; 参考:https://www.cnblogs.com/dannyyao/p/6533567.html 查看建表语句 show create table t_xifan_user_login; ...

2019-02-15 17:25:55

阅读数 139

评论数 0

原创 Hadoop streaming-Python编写map reduce任务

本篇记录自己学习用python写mr任务 的总结 由于图片比较分散,本篇放上有道链接。 http://note.youdao.com/noteshare?id=08673fa58add61d2797a31672e3dcb45

2019-02-02 17:18:44

阅读数 123

评论数 0

原创 python近期使用总结

【一】读1 readlines() 之间的差异是后者一次读取整个文件,象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for … in … 结构进行处理。 https://www.cnblogs.com/zywscq/p/544...

2019-01-28 11:42:59

阅读数 140

评论数 0

原创 DNN实战-猫狗分类

深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片,我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元,经过 Softmax 输出概率值 P,若 P&a...

2018-11-21 17:58:31

阅读数 697

评论数 2

原创 激活函数-sigmod tanh relu leaky-relu

神经网络每个神经元都需要激活函数(Activation Function)来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数,也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x),并作个简单比较。 观察 Sigmoid 函数和 tanh 函数,我们发现有这样一个问题,...

2018-11-21 16:11:52

阅读数 282

评论数 0

原创 Linux网络配置经验总结

虚拟机选择NAT模式 1、在etc/network/interfaces中配置好如下三项 # The primary network interface auto eth0 iface eth0 inet static address 192.168.234.80 netmask 255.255....

2018-10-24 11:00:39

阅读数 319

评论数 0

原创 C语言数组

今天记录一个让人蛋疼的问题, 在写c语言读csv文件的时候,由于csv文件为 80w*5, 每个元素是字符串,因此想用一个二维字符串数组存一下,可一查才知道,c语言没有二维字符串数字,思来想去,准备用5个数字符串数组代替,每个字符串数组存储1列。 char dataset_wr[800000][M...

2018-10-20 11:36:58

阅读数 242

评论数 0

翻译 预测Facebook广告点击量的实践经验(翻译)

由于没法导出为md格式,上传的CSDN,只能放我翻译的链接了。 分享链接 http://note.youdao.com/noteshare?id=866cda0a11142307c27b6c072a79d3eb&sub=A8E3505A71D242A3802C82D...

2018-10-18 22:01:15

阅读数 378

评论数 0

原创 过拟合(正则化处理)- 欠拟合 处理方法

1 过拟合 过拟合——过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题 1 、方法一:尽量减少选取变量的数量 2、正则化 正则化中我们将保留所有的特征变量,但是会减小特征变量的数量级 这个方法非常有效,当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响。正...

2018-09-17 20:36:50

阅读数 430

评论数 0

原创 模型融合-Stacking

这篇是作为我的笔记,所以写的可能不易大家阅读。 这是我理解的Stacking方法 结合下面这站图一起来看 看懂这两张图,stacking就没啥问题了。 感觉正常情况下,stacking方法应该是很有效。 注意几点: 使用的是 predict_probe() 方法,而非 pred...

2018-09-12 23:26:56

阅读数 646

评论数 0

原创 机器学习——画图方法

本篇博客与Titanic博客相关联,是其第2部分内容,由于涉及大量通过可视化图形 进行数据预览、分析的地方,因此独立成篇,作为画图方法的笔记。 1、预览数据集 加载数据集 # -*- coding:utf-8 -*- import numpy as np #科学计算 imp...

2018-09-12 22:48:50

阅读数 1105

评论数 0

原创 学习曲线-Learning Curve

学习曲线是什么? 【简单来说】 学习曲线(learning curve)来判断模型状态:过拟合欠拟合 【详细来说】 学习曲线是不同训练集大小,模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标,训练和交叉验证集上的得分(如准确率)为纵坐标。learning curve可以...

2018-09-11 23:29:09

阅读数 1581

评论数 2

原创 Pandas中loc用法——索引、补全缺失值

loc——通过行标签索引行数据 loc[1]表示索引的是第1行(index 是整数) import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataF...

2018-09-07 11:41:27

阅读数 988

评论数 0

原创 Kaggle——高分泰坦尼克灾难生存预测详细讲解(LR、Bagging)

前言 老规矩,先上项目完整代码,再详细讲解代码每一段内容。博文结尾附Github地址,里面包含我在完成本项目过程中,不同版本的代码。讲解不清的地方请多包涵,我们开始吧! [ Kaggle泰坦尼克号灾难预测竞赛地址 ] 0、泰坦尼克号灾难生存预测代码 ...

2018-09-06 23:30:30

阅读数 1148

评论数 2

原创 Pandas库qcut( )与cut( )的用法与区别

1、pd.qcut() qcut是根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的 >>> factors = np.random.randn(9) [ 2.12046097 0...

2018-08-30 22:02:38

阅读数 976

评论数 0

原创 随机森林回归 sklearn.ensemble.RandomForestRegressor

随机森林回归:随机森林是一种目标估计,通过对数据集上的部分样本形成一个分类决策树,并使用averaging去提高预测准确率和控制过拟合发生。 class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’...

2018-08-22 23:10:17

阅读数 1476

评论数 0

原创 sklearn中predict与predict_proba区别

predict_proba 返回的是一个 n 行 k 列的数组,列是标签(有排序), 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。 predict 直接返回的是预测 的标签。 具体见下面示例: # conding :utf-8 ...

2018-08-22 22:49:05

阅读数 908

评论数 0

提示
确定要删除当前文章?
取消 删除