DataAnalysis
文章平均质量分 56
textboy
专注于技术与管理并行发展
展开
-
机器学习 Machine Learning
《文本分类,数据挖掘和机器学习》,论文级别,值得收藏! 详细见 http://blog.chinaunix.net/uid-446337-id-94440.html心得归纳机器学习 Machine Learning:机器像人类一样自己来通过对大量的观察来自己总结经验,即程序通过训练学习(训练前:公式已知,参数值未知,求解未知;训练:训练数据 Training Data 中的转载 2015-05-31 21:58:26 · 1015 阅读 · 0 评论 -
离散化/分箱/分组(Discretization / binning / Interactive grouping)
1、监督离散化(supervised discretization)考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。 (1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inferenc原创 2015-07-22 19:15:42 · 28248 阅读 · 2 评论 -
credit risk 预测建模 - try 2
一、数据预处理 1、数据清洗(data cleaning) (1)缺失值处理(missingdata processing)无缺失值。 (2)去噪声(noisy dataprocessing)(未有时间研究) (3)去异常值(outlierprocessing)? (4)共线性变量处理(pairwisecorrelations processin原创 2015-07-22 19:23:51 · 3059 阅读 · 0 评论 -
Scorecards - AUC与ROC与Gini
From http://beader.me/2013/12/15/auc-roc/二元分类器 二元分类器是指要输出(预测)的结果只有两种类别的模型。例如预测阳性/阴性,有病/没病,在银行信用评分模型中,也用来预测用户是否会违约,等等。 既然是一种预测模型,则实际情况一定是有些结果猜对了,有些结果猜错了。因为二元分类器的预测结果有两种类别(以下以阴/阳转载 2015-07-23 23:34:08 · 7679 阅读 · 0 评论 -
GAM(广义相加模型)概要及R程序实现
国内关于GAM方面的资料不是一般的少,基本上都要往国外找。我光顾了没100都有50个网站,翻查了不少论文及资料,研究整理出下文,欢迎一同讨论。GAM 广义相加模型Generalized additive model:概念回归模型中部分或全部的自变量采用平滑函数,降低线性设定带来的模型风险,对模型的假定不严,如不需要假定自变量线性相关于因变量(线性或非原创 2015-08-04 15:27:58 · 86537 阅读 · 19 评论 -
Data Sets 数据源
Data Sets 数据源:可用于数据分析、数据挖掘、统计、数据仓库测试等。年化CPIhttp://data.worldbank.org/indicator/FP.CPI.TOTL.ZG年化GDPhttp://data.worldbank.org/indicator/NY.GDP.MKTP.CD金融http://lisp.vse.cz/pkdd99/Challe原创 2015-06-25 16:37:00 · 845 阅读 · 0 评论 -
各种分类算法比较
From http://bbs.pinggu.org/thread-2604496-1-1.html1决策树(Decision Trees)的优缺点决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般转载 2015-11-04 18:48:27 · 5088 阅读 · 0 评论 -
R语言连接Mysql数据库的步骤及简单使用mysql数据库中的数据
见:http://www.dataguru.cn/thread-289411-1-1.html注:64位系统要用64位ODBC驱程才行。转载 2015-09-16 16:26:07 · 617 阅读 · 0 评论 -
R语言问题——连接数据库乱码问题解决方案
From http://blog.sina.com.cn/s/blog_83bb57b70102vejc.html存在问题:MySQL查询数据正常,但是用R连接mysql查询后,数据只能显示英文和数字,不能显示中文,中文被一些问号代替,如下图: 处理步骤: 1、检查MySQL表的字符集 使用sh转载 2015-10-20 17:25:52 · 1497 阅读 · 0 评论 -
互联网金融产品如何利用大数据做风控
From http://www.zhihu.com/question/27715270/answer/43411182由于互联网金融涉及货币发行(比特币)、第三方支付、投资理财(网络银行、保险、基金、证券、财富管理)、信贷(P2P、众筹、网络微贷)、征信等等,各个领域的风控策略并不尽相同,不能一概而论,下面讨论只能涵盖了常见的风控策略。 个人认为“大数据”除了强调数据的海量转载 2015-10-08 18:39:20 · 2083 阅读 · 0 评论 -
在SAS中进行关联规则分析
From http://www.itongji.cn/article/091010352012.html从SAS顶端的【解决方案(S)】菜单下调出企业数据挖掘(也可以通过在命令行输入miner):SAS/EM的初始界面如下:接下来,将数据挖掘外接程序示例数据集中的Associate表导入SAS逻辑库。先将xlsx文件另存为xls文件,再双击SAS转载 2015-10-08 17:24:47 · 3401 阅读 · 0 评论 -
sas EM 决策树
From http://bbs.pinggu.org/thread-448896-1-1.html1. 将Tree 节点添加到流程图工作区2. 连接Transform Variables 节点和Tree节点3. 打开Tree 节点。对于二元目标变量,节点使用卡方检验,默认对于二元目标变量分枝准则的显著性水平为0.200。简单说来,可以使用默认Basic项的设置来拟合转载 2015-10-09 10:58:48 · 10516 阅读 · 0 评论 -
当推荐算法开源包多如牛毛,为什么我们还要专门的推荐算法工程师
比较有趣,转转。From http://www.cnblogs.com/flclain/p/4211685.html作为一个推荐系统业余爱好者,在机器学习领域的鄙视链中,我感觉一直地位不高,时常被搞NLP CV语音等高科技技术的朋友鄙视。最近甚至被人问,推荐算法开源包多如牛毛,我们为什么还要专门的推荐算法工程师?(难道想要辞退我!?惊)不得不说,我想吐槽这个观点转载 2015-10-29 15:09:47 · 1264 阅读 · 0 评论 -
[Python]Anaconda(python数据分析工具箱版)安装
主要是Scipy, Numpy这些包安装需要相应版本的Visual C++及设置路径,颇为麻烦,而且还有不同的包如sklearning等要下,Anaconda是一套数据分析工具箱版,再也不用一个个包下了,very good!!1、去https://www.continuum.io/downloads 下载相应版本2、安装3、如果IDE用Pycharm ,可以在File >原创 2015-12-13 09:05:21 · 1383 阅读 · 0 评论 -
[Python]FPG(FP-growth)算法核心实现
FPG是FP-growth算法的简称,推荐算法=》关联算法中最有名的算法之一,是Apriori算法的性能优化版。参考了一些示例,自行再实现,具体算法如下。步骤归纳为:1、第一次遍历获取HeaderTable,包括去重、计频繁数、依据最小支持度去项、重排序(频繁数倒序);2、第二次遍历更新原列表,包括依据headerTable去除小于最小支持度的项、重排序3、建FP原创 2016-01-20 11:47:32 · 2974 阅读 · 0 评论 -
日志分析方法概述
注:写得有点乱,但目前市面上这方面内容的确不多,mark一下~http://blog.csdn.net/pkueecser/article/details/9569251=============日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方转载 2016-08-22 11:31:24 · 28964 阅读 · 0 评论 -
序列模式PrefixSpan算法介绍
序列序列(sequence)是一组排好序的项集,不一定是直接连续的,但依然满足次序。序列模式的元素还可以是一个项集,如一组页面序列。序列模式挖掘比关联挖掘能得到更深刻的知识。序列模式sequence patternmining,针对Frequent Sequences,典型的应用还是限于离散型的序列,happens-after relationship and not just原创 2016-09-13 15:35:36 · 7082 阅读 · 0 评论 -
目录条目”SASHELP.EMCREDIT.IGN.SOURCE”不存在
EM已经能启动,但运行到交互式分组时遇到下面的错。查了全internet,无解,无奈中~~~原创 2015-07-21 18:59:24 · 1300 阅读 · 6 评论 -
SAS9.3完全版启动时报错逻辑库“SASHELP”及其解决方法
安装SAS9.3完全版(13GB鬼那么大的套装),在倒数第二步,PC File出错,经查可以直接点“是”继续安装而不用理会。但在最后一步,安装后处理,就一直转、一直转个不停,点完成,启动SAS时就报下面的错了:WARNING: 连接逻辑库“SASHELP”中指定的一个或多个逻辑库不存在。这些逻辑库已从连WARNING: 接中删除。ERROR: “SASHELP 可移植注册表”缺原创 2015-07-21 14:09:59 · 22699 阅读 · 1 评论 -
聚类算法总结
From http://blog.chinaunix.net/uid-10289334-id-3758310.html/聚类算法的种类:基于划分聚类算法(partition clustering)k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据k转载 2015-05-08 14:52:17 · 891 阅读 · 0 评论 -
大数据 Big Data & 数据挖掘 Data Mining
大数据 Big Data描述大量数据或动态大数据(某一时点大量数据)的情况下的各种应对。1)网站前端大数据输入,引出高并发、高负载、高性能的处理;2)大数据后台处理,引出分布式处理、分布式存储、云计算;3)大数据摆在面前,应该搞点数据分析,不用好像白不用,于是引出数据挖掘。当然,如果是大数据概念推手,你可以把“大量数据的情况下”改为“大数据时代下”~。与数据挖掘的关系:大数据推手认为大原创 2015-06-02 15:38:50 · 1652 阅读 · 0 评论 -
Machine Learning Basis
(部分内容参考自其它 blog,见下面引用)1. 训练数据、验证数据、测试数据训练数据(Training Data):用于模型构建,由已知推测未来验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。2转载 2015-06-14 17:55:30 · 647 阅读 · 0 评论 -
IT方向数据分析技术一览
数据分析技术一览(按重要度排行):方向技术例子Analytical tools (数据挖掘)SAS,Clementine,SPSS Modeler,R,Mahout,Matlab,机器学习模型算法决策树、聚类、逻辑回归,序列标注,关联分析、SVM,贝叶斯Big Data原创 2015-06-19 08:09:34 · 907 阅读 · 0 评论 -
Statistics Basis
1.Conditional Probabilities(the probability of A given B, '' means AND, '|' means given)2.Bayes' Theorem(贝叶斯)e.g.Selects one of the volunteers at random toask if she enjoyed play原创 2015-06-14 17:28:24 · 603 阅读 · 0 评论 -
风险量化模型
搜集了一下,发现国内的风险量化模型按热闹程度排表如下:1、VaR, FICO, KMV2、CreditMetrics、敏感性分析、误差反向传播(Error Back Propagation, BP)算法3、回归模型:多元线性判定 Z-Score模型、多元逻辑 Logit模型、多元概率比回归 Probit、增量算法4、Cox比例风险模型注:象AHP这类虽然用到数学矩阵原创 2015-06-29 22:52:38 · 13302 阅读 · 0 评论 -
参数估计、假设检验与回归
总体架构拟合(fitting) 概念已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归,否则叫作非线性拟合或非线性回归。 参数估计概念在已知原创 2015-07-03 19:52:32 · 21839 阅读 · 0 评论 -
R - SVM 支持向量机
install.packages("e1071")library(e1071) 1)svm建模(i) svm(formula,data=NULL,…,subset,na.action=na.omit,scale=TRUE)formula:分类模型形式,可以理解为y~x,y相当于标签,x相当于特征(变量)。subset:可以指定数据集的一部分作为训练数据。na.catio原创 2015-07-29 19:25:58 · 3752 阅读 · 0 评论 -
deep learning - h2o R samples
用H2O做了个deep learning的例子(0、1二分类),对比logistic回归、GAM、SVM等,综合表现最差,比较郁闷。deep learning中可以调节的参数很多,不确定是参数问题还是其它问题。有了解的童鞋吗?R程序:(1) library(h2o)localH2O = h2o.init()woedata.h2o woemdl.dl原创 2015-08-11 16:32:58 · 1855 阅读 · 1 评论 -
折腾R程序包-devtools
今天因为某些原因打算安装R程序包devtools,我用的是XP平台,R3.2.1。开始时,download了devtools的包压缩文件,然后在R程序menu: packages -> installpackages from local zip files中安装,然后发现其需要一大堆前置包才能运行,于是改用命令install.packages("devtools")。这里建议选镜像China.b原创 2015-07-19 19:54:13 · 14114 阅读 · 0 评论 -
R语言基础总结
符号= 或 赋值“超赋值”操作符,函数内部定义全局变量? / ?? / help()Help, e.g. help("scan")demo() example()e.g. example(glm)methods()原创 2015-07-13 16:35:44 · 3930 阅读 · 0 评论 -
熵(entropy)
熵(entropy):刻画了任意样例集的纯度(purity),反映不确定性,值越小不确定性越低。公式:p+代表正样例,如打羽毛球,p-则代表反样例,不去打球。E.g. 9个正例和5个反例的熵为:Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940正例反例各占一半时,熵为最大值1,即不确定性最大 - 100%。转载 2015-07-30 22:10:24 · 2619 阅读 · 0 评论 -
credit risk 预测建模 - try 1
一、数据预处理 导入数据 自变量-连续型V2,V5,V8,V11,V13,V16,V18自变量-分类型V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20因变量yV21变量释义https://archive.ics.uci原创 2015-07-20 19:46:52 · 3067 阅读 · 2 评论 -
Scorecard 评分卡模型
公式woe=ln(odds),beita为回归系数,altha为截距,n为变量个数,offset为偏移量(视风险偏好而定),比例因子factor。 总评分。或去掉负号。 Logistic Regression with Weight of Evidence 比例因子和偏移量为:令好坏比为50,对应的评分为600;在些基础上评分值增加20分,e原创 2015-07-20 23:19:35 · 44918 阅读 · 0 评论 -
SAS9.3 EM 点击没反应不能打开的解决方法
SAS9.3 刚安装,SAS base等能正常使用了,但点击EM没反应、不能打开,也不报错。查看原因:到D:\Program Files\SASHome\SASEnterpriseMinerWorkstationConfiguration\12.1windows 里调用的是em.exe,我们运行另外一个程序,叫em_console.exe,方法是先在运行中键入cmd启动dos样原创 2015-07-21 14:56:24 · 7991 阅读 · 2 评论 -
循环神经网络RNN(二)深度学习之父的神经网络第八课(中文字幕)
本人参与译作,欢迎观看。循环神经网络RNN(二)深度学习之父的神经网络第八课(中文字幕)转载 2017-05-19 10:22:59 · 775 阅读 · 0 评论