数据挖掘
文章平均质量分 65
行路南
公众号:CV前沿
展开
-
pandas 常用函数
读写csv文件写入 df.to_csv(filename)读取 pd.read_csv(filename,header=0) #保留列属性,header=None不读列属性缺失值处理去掉包含缺失值的行 df.dropna(how=’any’)对缺失值进行填充 df.fillna(value=5)选择行或列df.iloc[3] #第四行 df.iloc[:,3] #第四列 df原创 2016-03-15 16:23:37 · 14822 阅读 · 1 评论 -
基于sklearn 的auc 计算方法
from sklearn import cross_validation,metricsfrom sklearn import svmtrain_data,train_target = load(filename)#自定义加载数据函数,返回的是训练数据的数据项和标签项train_x,test_x,train_y,test_y = cross_validation.train_test_split原创 2016-04-16 10:56:00 · 50501 阅读 · 15 评论 -
聊一聊变量
通常我们得到的变量类型是按两种来划分的,数值型的和类别型的。但我们在具体进行数据分析的时候,还是应该继续细分下去,针对不同的类型做出更加精确的处理。 那么数据的细分,应该是按四类来划分更合适: - 定类变量,名义级数据,数据的最低级,仅仅表示类别,没有序次关系。比如性别特征,只有‘男’和‘女’。 - 定序变量,数据的中间级,不仅可以表示类别,还代表了一种高低程度,可以用>,<表示;比如受教育程原创 2016-04-16 15:52:22 · 804 阅读 · 0 评论 -
科赛网 魔镜杯“风控算法比赛”赛后总结
1.问题描述 从平均400个数据维度来评估当前用户的信用状态,给每个借款人打出当前状态的信用分。在此基础上,再结合新发标的信息,打出对于每个标的6个月内逾期率的预测,为投资人提供了关键的决策依据,促进健康高效的互联网金融。 2.数据集 数据是国内网络借贷行业的贷款风险数据,包括信用违约标签(因变量)、建模所需的基础与加工字段(自变量)、相关用户的网络行为原始数据。数据下载地址:Master原创 2016-04-20 16:20:16 · 5637 阅读 · 4 评论 -
linux 下安装anaconda
第一步:下载ancaconda for linux 这里是下载地址 我这里没有选择最新的版本,选择的是2.1.0,64位,linux 的版本第二步:在下载的anaconda 安装包的目录下进行安装bash Anaconda-2.1.0-Linux-x86_64.sh安装完成之后要重启终端,anaconda才能生效第三步:验证输入python 进行python环境 输入import scipy ,原创 2016-05-03 12:45:04 · 87770 阅读 · 3 评论 -
linux 下安装xgboost
第一步:安装anaconda安装xgboost 有一些依赖包,所以在安装xgboost之前需要安装这些依赖包。为了方便安装,这里推荐直接安装anaconda,这里集成了绝大多数第三方库,安装步骤很方便,这里是具体方法第二步:下载xgboost官网的最新版xgboost 在编译时候总有问题,可能是版本过新的缘故。这里我使用的是之前xgboost的版本,编译很顺利。下载地址见这里第三步:编译和安装1.检原创 2016-05-03 13:35:21 · 23569 阅读 · 1 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)
原文地址:https://github.com/ty4z2008/Qix/edit/master/dl.md《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An转载 2016-05-17 20:30:02 · 2855 阅读 · 0 评论 -
xgboost 调参经验
首先 parameters 设置如下:params = { 'booster':'gbtree', 'objective':'binary:logistic', 'eta':0.1, 'max_depth':10, 'subsample':1.0, 'min原创 2016-04-14 21:03:52 · 75926 阅读 · 8 评论 -
基于Xgboost + LR + Keras 建模评估用户信用状态
项目背景 拍拍贷“魔镜风控系统”基于400多个数据维度来对当前用户的信用状态进行评估,通过历史数据每个借款人的性别、年龄、籍贯、学历信息、通讯方式、网站登录信息、第三方时间信息等用户信息以及对应的分类标签,在此基础上结合新发标的用户信息,得到用户六个月内逾期率的预测,为金融平台提供关键的决策支持。数据格式 数据下载–点这里 这里面包含三期数据,每期数据内容和格式相同,这里面包括两部分信息:原创 2016-08-03 21:57:31 · 16409 阅读 · 14 评论 -
猜你喜欢”推荐算法大赛冠军分享
最近在整理一些以往的比赛经验,下面这篇文章是我在DataCastle 参加“猜你喜欢”推荐算法大赛获得冠军的思路分享。我是Yes,boy! ,来自东北大学计算机学院。在猜你喜欢推荐系统竞赛中,很幸运取得第一名的成绩,下面我简单介绍下我的思路。 本次比赛的赛题背景是给出了约3400万条数据,包含一个商品网站站内顾客在某一时刻对某一个商品的打分值,分值范围为1至5分。目的是通过对这些数据的学习和训练,原创 2016-08-11 18:06:50 · 6620 阅读 · 0 评论 -
Pandas 合并数据集
在数据挖掘过程中,经常会有不同表格的数据需要进行合并操作。今天介绍通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。1.mergemerge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要 应用场景是针对同一个主键存在两张包含不同特征的表,通过该主键的连接,将两张表进行合并。合并之后,两张表的行数没有增加,列数是两张表的列数之和减一。 函数的具体参原创 2016-04-13 11:03:34 · 66323 阅读 · 3 评论 -
Win10 64bit 安装Theano 配置CUDA 实现GPU加速 详细步骤
一、前言 之前接触过深度学习,由于实验室台式电脑是32位且没有独显,跑深度学习这样层次复杂的模型,运算时间上非常漫长(干着急…)。这次在自己笔记本上重新折腾,配置CUDA ,通过学习网上总结的教程,不断尝试,最终安装成功。现将整个安装过程记录下来。二、软件信息: 【1】操作系统:Win10 64bit 【2】Python环境及相关依赖包:Anaconda-2.1原创 2016-04-09 20:30:31 · 8336 阅读 · 1 评论 -
keras 在window下的安装
使用pip 方式打开cmd,输入pip install keras ,然后自动安装完毕。(我个人在此之前已经安装了Pyhon + anaconda )原创 2016-04-09 11:34:55 · 1435 阅读 · 0 评论 -
魔镜
数据预处理:1.1 关于第三方数据第N种时间一共有七个周期,每个周期有17个点;周期之间具有相关性;每个用户在每个周期的缺失值要么不缺,要么全缺;由于不清楚属性含义,暂时发现每个用户数值相差挺大,但整体上也有一定的范围,因此对于缺失值应该考虑以周期性关联为主,以用户间关联为辅的方式去补值。1.2 关于UserInfo一共从1到24 列其中只有第10,18列为数值型第2,4,7,8,1原创 2016-03-13 21:51:34 · 792 阅读 · 0 评论 -
基于scikit-learn工具的交叉检验 — cross_validation模型
1. 何为交叉检验在进行数据挖掘的工作或者比赛中,通常都是给定一个train训练数据集和一个test测试数据集,然后采用一个或多个模型对train进行训练,最后将训练完成得到的模型用于test 的预测。然后问题来了,我们怎么确定我们对train 训练的模型是优秀的呢? 那么我们会想到从原来的train 数据集中分成两部分 train_1,train_2,拿train_1去训练,然后将训练完成的结果原创 2016-04-13 20:31:06 · 4333 阅读 · 0 评论 -
[python] 时间序列分析之ARIMA
时间序列建模基本步骤1. 获取被观测系统时间序列数据;2. 对数据绘图,观测是否为平稳时间序列;对于非平稳时间序列要先进行**d阶差分运算**,化为平稳时间序列;3. 经过第二步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其**自相关系数ACF** 和**偏自相关系数PACF** ,通过对自相关图和偏自相关图的分析,得到最佳的**阶层 p **和**阶数 q**4. 由以上得到的$d、q、原创 2015-11-03 21:37:23 · 228074 阅读 · 93 评论 -
numpy 基础知识
标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。 此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比较类似。但是由于它不原创 2015-12-18 17:23:59 · 698 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,reca转载 2015-12-20 21:32:30 · 3318 阅读 · 1 评论 -
xgboost[python版本]的安装
首先需要下载的是: xgboost 在window 下的安装包; Microsoft Visual Studio 2013; anaconda安装包安装步骤:先安装anaconda 安装包,里面包括scipy ,python ,numpy ,matplotlib 等众多第三方库;安装包下载时注意要看是32位还是64 位,之后就是一键安装,方便快捷无污染。进入xgboost-master\w原创 2016-03-18 21:44:48 · 2527 阅读 · 0 评论 -
python 读取图片数据
在当前很多应用中,都需要涉及图片处理。例如常见的手写体识别、车牌号码识别、人脸/动物识别等。由于我们通常得到的都是图片,这就需要我们将图片转换成数据。下面我分别针对灰度图图片转换处理。这里使用的是手写体识别的数据集 mnist ,每张图片为28*28像素,一共42000张,每张图片的label 为图片名字的第一个数字。#coding:utf-8import osfrom PIL import Im原创 2016-04-06 15:52:36 · 22126 阅读 · 0 评论 -
基于sklearn的特征选择方法
在数据挖掘工作中,通常处理的是一个包含大量特征且含义未知的数据集,并基于该数据集挖掘到有用的特征。那么这里面一般是四个步骤:特征工程、特征选择、模型构造、模型融合。特征工程主要是清洗特征、删除无用特征和构造新特征,经过特征工程这个过程我们可能会得到大量的特征;而特征选择的目的就是从这大量的特征中挑选出优秀的特征,因为好的特征更能够提升模型性能,同时也通过降维达到了避免维度灾难的目的。本文主要利用sk原创 2016-04-07 21:40:11 · 15041 阅读 · 0 评论 -
sort() , sorted() 与argsort()
sort() 是可变对象的(字典、列表)方法,无参数、无返回值,因为它可以改变对象,因此无需返回值。sort()方法对于不可变对象(如元组、字符串)是不能调用的。 sorted() 是python的内置函数,并不是可变对象的特有方法。它需要接受一个对象(可以是列表、字典、元组、字符串),它不直接改变对象,而是返回一个排序的以列表为容器的返回值。sorted(iterable,cmp=None,ke原创 2016-04-08 11:14:49 · 652 阅读 · 0 评论 -
Jupyter Notebook的快捷键
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。 命令模式 (按键 Esc 开启)Enter : 转入编辑模式 Shift-Enter : 运行本单元,选中下个单元 Ctrl-Enter : 运行本单元 Alt-Enter : 运行本单元,在其下插入新单元 Y :转载 2017-06-06 21:48:42 · 799 阅读 · 0 评论