自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

原创 【Tensorflow】报错解决方案

问题1:AttributeError: ‘module’ object has no attribute ‘histogram_summary’解决办法: 更新版本According to the answer I got in github issues, I am using a very ...

2017-11-30 10:49:33

阅读数 265

评论数 0

原创 【机器学习 sklearn】XGBclassifier 超参数寻优

代码片段# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pdtrain = pd.read_csv('train.csv') ...

2017-11-27 10:58:47

阅读数 4422

评论数 0

原创 【机器学习 sklearn】XGBoost and RandomForest

数据集下载网站: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt对比随机决策森林以及XGBboost模型对泰坦尼克号上的乘客是否生还进行预测。#coding:utf-8 from __future__ imp...

2017-11-24 16:07:47

阅读数 437

评论数 0

原创 【机器学习 sklearn 】朴素贝叶斯naive_bayes

代码片段:# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8')import pandas as pd import chardet df = pd.read_csv('news....

2017-11-24 15:44:44

阅读数 1989

评论数 0

原创 【mysql 索引】mysql 添加索引

主要内容: 1、什么是索引 2、添加索引sql 3、索引所用的算法 4、补充下概念 5、索引的缺点 6、经典案例一、什么是索引?   索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存。如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有...

2017-11-24 11:35:28

阅读数 825

评论数 0

原创 【mysql 存储过程】数据库从菜鸟走向大神系列3

主要内容: 1、建表 2、写存储过程 3、写事件(自动化)mysql 建表语句:CREATE TABLE `nld_op_data_statistics_day` ( `id` int(11) NOT NULL AUTO_INCREMENT, `channel` varchar(16...

2017-11-24 10:37:11

阅读数 192

评论数 0

原创 【linux bash】常用命令集合

常用 Bash 命令以下是在 Linux 中最常用到的指令,在使用新系统进行开发时,记住这些指令对于快速上手非常重要。cd {directory}:转换当前目录 ls -lha:列出目录文件(详细信息) vim or nano:命令行编辑器 touch {file}:创建一个新的空文件 cp -R...

2017-11-22 18:09:37

阅读数 526

评论数 0

原创 【python 自然语言处理】画画词云图

主要内容 1、需要一张背景图(hang.jpg) 2、需要文本数据(comments.txt) 3、需要中文字体文件(simsun.ttc)背景图:hang.jpg 效果图:# encoding: utf-8 import sys reload(sys) sys.setdefaultenc...

2017-11-21 16:02:11

阅读数 870

评论数 0

原创 【mysql 字符串截取】SUBSTRING_INDEX用法

截取 一个字符串的省、市、区、街道 SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-1),'-',1)SELECT SUBSTRING_INDEX(SUBST...

2017-11-21 14:05:46

阅读数 638

评论数 0

原创 【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

主要内容 1、什么是SnowNLP? 2、SnowNLP可以干哪些事儿? 3、如何进行情绪判断? 4、猎场豆瓣热门短评抓取。 5、猎场热门短评情感分析。 6、附录(python 画词云图) 什么是SnowNLP? snowNLP,可以分词,标注,还可以进行情绪分析。 SnowNLP是一...

2017-11-20 16:11:56

阅读数 3773

评论数 1

原创 【python 天气预报】python制作属于自己的天气预报

主要内容: 1、首先利用request库去请求数据,天气预报使用的是和风天气的API(www.heweather.com/douments/api/s6/weather-forecast),注册完成得到一个key。2、利用python的jinja2模块写一个html模板,用于展示数据3、pyth...

2017-11-19 19:06:43

阅读数 3802

评论数 1

原创 【mysql 执行计划】读懂mysql 中的执行计划

一、什么是mysql执行计划?执行计划,简单的来说,是SQL在数据库中执行时的表现情况,通常用于SQL性能分析,优化等场景。在MySQL使用 explain 关键字来查看SQL的执行计划。如下所示://1. 查询t_base_user select * from t_base_user where...

2017-11-18 12:41:35

阅读数 427

评论数 0

原创 【ubantu crontab】crontab 无法保存退出,坑死了

解决crontab不能编辑和保存的问题EDITOR=vi export EDITOR然后crontab -e就不会有这个问题了

2017-11-14 14:35:01

阅读数 3323

评论数 2

原创 【mysql 计算星座】根据身份证计算用户所属星座

SELECT casewhen SUBSTRING(person_card,11,4) between '0120' and '0218' then '水瓶座' when SUBSTRING(person_card,11,4) betwe...

2017-11-13 14:44:45

阅读数 1144

评论数 0

原创 【python 存储过程】python利用mysql存储过程更新数据

一、需求分析 由于管理费率配置错误,生成订单的还本付息表和订单表的各种金额,管理费之间的计算都有错误,需要进行数据订正。为此,为了造个轮子,以后省很多功夫,全部用程序去修正,不接入人工。二、带参数mysql 存储过程创建1、更新订单付息表(t_order_rapay)drop procedure...

2017-11-08 15:46:35

阅读数 1238

评论数 0

原创 【机器学习 sklearn】手写数字识别 SVM

"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py (1797L, 64L) [[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0...

2017-11-07 17:42:56

阅读数 1377

评论数 0

原创 【机器学习 sklearn】逻辑斯蒂回归模型--Logistics regression

运行结果:"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py Logistics regression [[99 1] [ 1 70]] sgdc...

2017-11-07 17:14:34

阅读数 1109

评论数 0

原创 【数据建模 神经网络】人工神经网络数据处理

人工神经网络数据预处理: 不能有缺失值 移除常量型特征(即这个特征的最大值和最小值相等) 不能接受非数值形式的输入,字符型变量需要编码:One hot编码 Dummy编码 浓度编码变量归一化/标准化 人工神经网络中的参数设置:输入层节点个数 隐藏层层数 隐藏层节点个数 隐...

2017-11-06 17:29:08

阅读数 1094

评论数 0

原创 【数据建模 分类器性能指标】性能测评

表示分类正确:True Positive:本来是正样例,分类成正样例。 True Negative:本来是负样例,分类成负样例。 表示分类错误:False Positive :本来是负样例,分类成正样例,通常叫误报。 False Negative:本来是正样例,分类成负样例,通常叫漏报。准确...

2017-11-06 17:20:48

阅读数 278

评论数 0

原创 【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码1. one-hot编码 2. 浓度编码这里需要详细讲下浓度编码: 某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。 例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。 ...

2017-11-06 17:05:37

阅读数 885

评论数 0

原创 【数据建模 缺失值处理】缺失值的处理

缺失类型1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法删除有缺失值的属性或者样本(土豪行为) 插补填充(常用于完全随机缺失且缺失度不高...

2017-11-06 17:00:47

阅读数 2410

评论数 0

原创 【数据建模 极端值的检测】离群值检测

极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。 数据分析师们需要自己判断处理离群值的必要性,并结合实...

2017-11-06 16:56:45

阅读数 1281

评论数 0

原创 【数据建模 卡方检验】了解卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。 (1)提出原假设: H0:总体...

2017-11-06 16:47:53

阅读数 1839

评论数 0

原创 【数据建模 方差分析】单因素方差分析

单因素方差分析: (一)单因素方差分析概念理解步骤 ①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。 ②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量...

2017-11-06 16:41:47

阅读数 2478

评论数 0

原创 【数据建模 IV】特征信息度

IV(Information Value), 衡量特征包含预测变量浓度的一种指标特征信息度解构: 其中Gi,Bi表示箱i中好坏样本占全体好坏样本的比例。  WOE表示两类样本分布的差异性。  (Gi-Bi):衡量差异的重要性。 特征信息度的作用  选择变量:非负指标 高IV表示该特征...

2017-11-01 18:06:06

阅读数 1230

评论数 0

原创 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)

WOE(weight of evidence, 证据权重)一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值优势   将特征的值规范到相近的尺度上。   (经验上讲,WOE的绝对值波动范围在0.1~3之间)。   具有业务含义。    缺点   需要每箱中同时包含...

2017-11-01 18:01:09

阅读数 3909

评论数 0

原创 【数据建模 特征分箱】特征分箱的方法

在建模中,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。 它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内...

2017-11-01 17:53:46

阅读数 24068

评论数 0

原创 【R 语言 数据抽样】将样本总体分为样本集和测试集

方法1:rm(list=ls()) gc() german_credit <- read.csv("C:/pic/credit/german_credit.csv",sep = ",")names(german_credit)# 需要将样本总体分为样本...

2017-11-01 17:32:04

阅读数 1175

评论数 0

原创 【R语言 评分模型】R语言建立信用评分模型

1、数据源: 我们将会使用在信用评级建模中非常常用的德国信贷数据(German credit dataset)作为建模的数据集。德国信贷数据共有1000条数据,每条数据20个特征。2、数据源下载: https://github.com/frankhlchi/R-scorecard3、建模过程4...

2017-11-01 17:02:52

阅读数 3486

评论数 2

提示
确定要删除当前文章?
取消 删除