GitzLiu-CSDN博客

原创数据分析----LR和GBDT模型训练

本篇是 LR和GBDT模型训练【放链接】的附属篇一、常用库 # -*- coding: UTF-8 -*- import numpy as npfrom numpy import medianimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as sns...

2019-07-04 19:08:26 996

原创 Hive学习总结

http://note.youdao.com/noteshare?id=73cf7b73fac3c713f8d1c2847ae89530&sub=B7DD177CAB404E3280060A0F4FC6E17A

2019-06-12 20:06:47 531

原创 LR和GBDT模型训练

【待补充】一、LR模型训练1、特征分析分析每个特征和标签的关系【放个链接，在别的博客里写】2、分析每个特征的基本特点步骤1是看相关性，是为了筛选特征，删除不必要特征本步分析特征基本特点是在选完特征基础上，为数据处理做准备【放个链接？】3、根据特征的特点，以及模型的输入要求对数据集进行整理包括：处理缺失值get_dummiesbins(cut 或者 qcut)保存训练...

2019-06-12 20:00:40 1401

原创记录-mysql操作-crontab操作

一 mysql基本操作show databases；use [数据库名字]show tables;参考：https://www.cnblogs.com/dannyyao/p/6533567.html查看建表语句show create table t_xifan_user_login;查看有哪些列desc t_xifan_user_login;限制显示行数select * fro...

2019-02-15 17:25:55 583

原创 Hadoop streaming-Python编写map reduce任务

本篇记录自己学习用python写mr任务的总结由于图片比较分散，本篇放上有道链接。http://note.youdao.com/noteshare?id=08673fa58add61d2797a31672e3dcb45

2019-02-02 17:18:44 413

【一】读1readlines() 之间的差异是后者一次读取整个文件，象 .read() 一样。.readlines() 自动将文件内容分析成一个行的列表，该列表可以由 Python 的 for … in … 结构进行处理。https://www.cnblogs.com/zywscq/p/5441145.htmlwith open('./data/threedaysdata/t_xifan_c...

2019-01-28 11:42:59 1127

原创 DNN实战-猫狗分类

深层的神经网络来解决一个猫、狗的分类问题。这是一个典型的二分类问题。输入是一张图片，我们会把 3 通道的 RGB 图片拉伸为一维数据作为神经网络的输入层。神经网络的输出层包含一个神经元，经过 Softmax 输出概率值P，若 P&amp;amp;amp;amp;amp;amp;gt;0.5，则判断为猫（正类），若 P≤0.5，则判断为非猫（负类）。对于整个神经网络模型，我们可以选择使用不同层数，以此来比较模型分类的性能，从而得到较深的神经网...

2018-11-21 17:58:31 5710 7

原创激活函数-sigmod tanh relu leaky-relu

神经网络每个神经元都需要激活函数（Activation Function）来进行非线性运算。逻辑回归模型使用的 Sigmoid 函数，也是一种激活函数。下面重点介绍几个神经网络常用的激活函数 g(x)，并作个简单比较。观察 Sigmoid 函数和 tanh 函数，我们发现有这样一个问题，就是当 |z| 很大的时候，激活函数的斜率（梯度）很小。因此，在这个区域内，梯度下降算法会运行得比较慢...

2018-11-21 16:11:52 3090

原创 Linux网络配置经验总结

虚拟机选择NAT模式1、在etc/network/interfaces中配置好如下三项# The primary network interfaceauto eth0iface eth0 inet staticaddress 192.168.234.80netmask 255.255.255.0gateway 192.168.234.2dns-nameservers 8.8.8.8...

2018-10-24 11:00:39 783

原创 C语言数组

今天记录一个让人蛋疼的问题，在写c语言读csv文件的时候，由于csv文件为 80w*5，每个元素是字符串，因此想用一个二维字符串数组存一下，可一查才知道，c语言没有二维字符串数字，思来想去，准备用5个数字符串数组代替，每个字符串数组存储1列。char dataset_wr[800000][MAX_LINE_SIZE] ;char dataset_pid[800000][MAX_LINE_S...

2018-10-20 11:36:58 517

翻译预测Facebook广告点击量的实践经验（翻译）

由于没法导出为md格式，上传的CSDN，只能放我翻译的链接了。分享链接http://note.youdao.com/noteshare?id=866cda0a11142307c27b6c072a79d3eb&amp;sub=A8E3505A71D242A3802C82D6921535CB...

2018-10-18 22:01:15 1066

原创过拟合（正则化处理）- 欠拟合处理方法

1 过拟合过拟合——过多的变量（特征），同时只有非常少的训练数据，会导致出现过度拟合的问题1 、方法一：尽量减少选取变量的数量2、正则化正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级这个方法非常有效，当我们有很多特征变量时，其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样，我们可以有很多特征变量，其中每一个变量都是有用的，因此我们不希望把它们删掉，...

2018-09-17 20:36:50 1790

原创模型融合-Stacking

这篇是作为我的笔记，所以写的可能不易大家阅读。这是我理解的Stacking方法结合下面这站图一起来看看懂这两张图，stacking就没啥问题了。感觉正常情况下，stacking方法应该是很有效。注意几点：使用的是 predict_probe() 方法，而非 predict() 方法，因此，若model没有 predict_probe() 方法，则无法使用stacki...

2018-09-12 23:26:56 2120

原创机器学习——画图方法

本篇博客与Titanic博客相关联，是其第2部分内容，由于涉及大量通过可视化图形进行数据预览、分析的地方，因此独立成篇，作为画图方法的笔记。1、预览数据集加载数据集# -*- coding:utf-8 -*-import numpy as np #科学计算import pandas as pd #数据分析from pandas import Series, D...

2018-09-12 22:48:50 5414

原创学习曲线-Learning Curve

学习曲线是什么？【简单来说】学习曲线(learning curve)来判断模型状态：过拟合欠拟合【详细来说】学习曲线是不同训练集大小，模型在训练集和验证集上的得分变化曲线。也就是以样本数为横坐标，训练和交叉验证集上的得分（如准确率）为纵坐标。learning curve可以帮助我们判断模型现在所处的状态：过拟合（overfiting / high variance） or ...

2018-09-11 23:29:09 30519 6

原创 Pandas中loc用法——索引、补全缺失值

loc——通过行标签索引行数据 loc[1]表示索引的是第1行（index 是整数）import pandas as pd data = [[1,2,3],[4,5,6]] index = [0,1] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) pri...

2018-09-07 11:41:27 4832

原创 Kaggle——高分泰坦尼克灾难生存预测详细讲解（LR、Bagging）

前言老规矩，先上项目完整代码，再详细讲解代码每一段内容。博文结尾附Github地址，里面包含我在完成本项目过程中，不同版本的代码。讲解不清的地方请多包涵，我们开始吧！ [ Kaggle泰坦尼克号灾难预测竞赛地址 ] 0、泰坦尼克号灾难生存预测代码这里写代码片...

2018-09-06 23:30:30 5525 3

原创 Pandas库qcut( )与cut( )的用法与区别

1、pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的&gt;&gt;&gt; factors = np.random.randn(9)[ 2.12046097 0.24486218 1.64494175 -0.27307614 -2.11238291 2.15422205 -0.46832859 0.16444572 1.525...

2018-08-30 22:02:38 3209

原创随机森林回归 sklearn.ensemble.RandomForestRegressor

随机森林回归：随机森林是一种目标估计，通过对数据集上的部分样本形成一个分类决策树，并使用averaging去提高预测准确率和控制过拟合发生。class sklearn.ensemble.RandomForestRegressor(n_estimators=10, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_l...

2018-08-22 23:10:17 10007

原创 sklearn中predict与predict_proba区别

predict_proba 返回的是一个 n 行 k 列的数组，列是标签（有排序），第 i 行第 j 列上的数值是模型预测第 i 个预测样本为某个标签的概率，并且每一行的概率和为1。predict 直接返回的是预测的标签。具体见下面示例：# conding :utf-8 from sklearn.linear_model import LogisticRegression...

2018-08-22 22:49:05 4153

原创 matplotlib常用画图方法

【matplotlib】Series.plot()参数表参数说明 label 用于图例的标签 ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置，则使用当前matplotlib subplot style 将要传给matplotlib的风格字符串(for example: ‘ko–’) alpha 图表的填充不透明(0...

2018-08-21 22:11:08 1140

原创 kaggle-旧金山犯罪分类详细讲解（朴素贝叶斯、逻辑回归、随机森林方法）

前言记得一位老先生说，如果你所讲的知识不能让一个8岁孩子听懂，说明你还是没真正掌握。本文秉持这样的理念，先给出全部代码，让读者一窥全貌，再逐段详细讲解。旧金山犯罪分类kaggle地址0、旧金山犯罪分类代码import pandas as pdimport numpy as np# 1、载入数据train = pd.read_csv('dataset/...

2018-05-06 18:01:18 8561 5

转载非参数估计---直方图法、Kn近邻估计法、Parzen窗法

当需要估计的概率密度函数的形式未知，比如我们并不能知道样本的分布形式时，我们就无法用最大似然估计方法或贝叶斯估计方法来进行参数估计，而应该用非参数估计方法。这里就介绍三种非参数估计方法。需要知道的是，作为非参数方法的共同问题是对样本数量需求较大，只要样本数目足够大众可以保证收敛于任何复杂的位置密度，但是计算量和存储量都比较大。当样本数很少时，如果能够对密度函数有先验认识，则参数估计能取得更好的估...

2018-04-03 11:15:09 14671 2

原创 python学习笔记

【python学习笔记】 data：2017-12-28#!/usr/bin/env python# Filename : helloworld.pyprint 'Hello World'解释器 ////////////////////////////////////////// 命令行输入python启动解释器可以直接 print‘hello world’运行一个python文件

2018-03-10 10:56:23 1171

原创 linux学习笔记

linux学习笔记 Date：2017-03-27mkdir +文件夹名字touch +文件名字rm -fr 删除文件，问价夹 -f强制删除 -r是递归ls > cmd.txt 把 ls 列出的目录和文件信息写到 cmd.txt 里。ls >> cmd.txt 是追加到 cmd.txt 里边去修改root密码：sudo passwd rootsu是在用户间切换，可以是从普通用户切换到roo

2018-03-10 10:49:17 898

原创链表专题

在不构造新的链表前提下可以创建一个新节点，dummy，并赋初值为INT_MIN 直接用这个新节点作为头节点，去直接连接l1、l2中所需节点。这样就不用以l1（或l2）为最终要合成的链表，不停插入来自l2（或l1）的节点了，省去了大量操作。

2017-11-20 22:59:25 967

原创【二、Leetcode哈希表专题】

【哈希表专题】一、难度：easy【第一题】Two Sum（No.1）详细见数组专题；【第二题】Single Number（No.136）题目描述 Given an array of integers, every element appears twice except for one. Find that single one.Note: Your algorithm should have

2017-11-06 23:05:37 1257

原创【一、Leetcode数组专题（1）easy】

【数组专题】难度：easy【第一题】 Two Sum(NO.1) Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input would have exactly one s

2017-10-28 00:59:04 1189

原创【深入理解计算机原理第十一章】---网络编程

11.1 客户端-服务器编程模型客户端-服务器由4个事务组成，如下图认识到客户端和服务器是进程，而不是常常提到的机器或者主机，这很重要。．11.2 网络对于一个主机而言，网络只是又一种I/O设备，作为数据源和数据接收方。就想键盘、鼠标等其他I/O一样，作为一个文件进行操作。图一个网络主机的硬件组成LAN：局域网1、较小的局域网（例如一个楼层），如下图所示，是用连接主机的双绞线和集线

2017-09-05 19:23:46 1244

转载静态缓存和动态缓存的比较

静态页面的缓存可能有2种形式：其实主要区别就是CMS是否自己负责关联内容的缓存更新管理。　　　　静态缓存：是在新内容发布的同时就立刻生成相应内容的静态页面，比如：2003年3月22日，管理员通过后台内容管理界面录入一篇文章后，就立刻生成http://www.chedong.com/tech/2003/03/22/001.html这个静态页面，并同步更新相关索引页上的链接。　　　　动态

2017-07-05 14:03:39 2930

原创网络嗅探针 Sniffing-Dog

Sniffing-DogSniffing Dog is a free and open source packet analyzer. It is used for network troubleshooting, analysis, software and communications protocol development.Basic Information Projectname：Snif

2017-06-03 16:22:00 2929

原创 HDSF学习

一、HDFS简介HDFS是基于流数据模式访问和处理大文件的需求而开发的，它可以运行与廉价的商用服务器上。特点：（1）处理超大文件（2）流式地访问数据（3）运行于廉价的商用机器集群上缺点：（1）不适用低延迟数据访问（2）无法高效存储大量小文件（3）不支持多用户写入及任意修改文件二、HDFS相关概念（1）块文件以块的形式存储在磁盘中，64MB/块（2）NameNo

2017-04-06 14:55:30 1884

原创 MapReduce学习

一、MapReduce的两种角色· JobTracker · TaskTracker二、MapReduce的原理可以理解为【 input->map->combine->reduce->output 】三、JobTracker和TaskTracker 与 Map和Reduce关系四、MapReduce程序示例输入：file0与file1 输出：统计结果五、MapReduce作业执行流程 *

2017-03-28 16:20:36 1832

原创 U盘安装Win Server 2008

一、制作u盘[ 制作u盘 ]注意：1、u盘4G以上； 2、启动u盘制作好后，插上u盘，重启电脑，直接进入bios进行设置从u盘启动；二、安装系统[ 安装系统 ]注意：1、在安装的时候，会有重启，在第一次重启时，一定要再次进入bios，恢复原来启动方式（取消u盘启动），不然又再来一遍； 2、关于原操作系统，可在安装的时候进行格式化所有磁盘进行删除（提前备份数据）； 3、装完winserver后，

2017-03-23 14:48:43 5168

原创 Nginx配置与解析

一、安装 sudo apt-get install nginx二、文件结构/etc/nginx 所有的配置文件都在此目录 /etc/nginx/sites-enabled 配置虚拟主机 /usr/share/nginx/html 根目录，里面有两个默认网页 index.html和50x.html/usr/sbin/ngin

2017-02-20 16:03:18 2129

原创 Nginx实现负载均衡的反向代理

正文：一、环境需求：Linux Nginx二、反向代理【基本概念】一个server是一个虚拟主机每个server代表一个网站server{ listen 80; server_name localhost; location / { proxy_pass http://119.75.217.109;#百度的ip }}我们访问http://

2017-02-20 15:02:06 1964

原创 QT调用Linux文件系统

前言：　　QT提供了调用文件系统的方法，非必要情况下不要自己去写，直接用就好。　　QFileSystemModel 调用方法：QFileSystemModel *model = new QFileSystemModel;model->setReadOnly(false); //设置可以修改model->setRootPath("/");QTreeView *treeVi

2017-02-08 10:45:23 3133

原创深度优先——遍历Linux文件系统

前言：　　最近用qt做usb驱动相关任务，需要一个能访问文件系统的程序，它要遍历给定目录下的所有内容，并按结构安排显示出目录与文件。QFileInfoList getDir(QString path){ QDir dir(path); QFileInfoList file_list = dir.entryInfoList(QDir::Files | QDir::Hidden | Q

2017-02-08 10:39:30 2671

原创【爬虫二】爬取豆瓣音乐榜单

前言　　借助有效率的工具，可以让我们更加方便的写出爬虫程序。本篇使用request和bs4库爬取豆瓣音乐榜单。介绍豆瓣音乐榜单：https://music.douban.com/top250 bs4：Beautiful Soup 4 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节

2017-02-04 15:22:53 4585

原创【爬虫一】urllib库使用

本篇为基础爬虫的模板，使用urllib库。代码功能：爬取百度贴吧的图片。代码如下：import reimport urllibdef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): reg=r'src="(.+?\.jpg)" size

2017-02-04 12:03:40 1983

空空如也

空空如也