数据挖掘与分析
文章平均质量分 62
办公室里穿拖鞋
资深互联网业务安全从业者
展开
-
SAS:Freq过程介绍
Freq过程介绍 原文地址:http://www2.sas.com/proceedings/sugi31/252-31.pdf转载请注明出处: http://blog.sina.com.cn/s/blog_5d3b177c0100b68k.html原文没有提供数据,所以就在网上随便找了个数据进行测试,地址如下:http://www.sasenterpriseminer.com/da转载 2014-07-18 14:42:49 · 14863 阅读 · 0 评论 -
如何使用python进行社交网络分析
Social Network Analysis for Startups 是一本介绍如何使用python进行社交网络分析的入门书,主要使用了NetworkX、numpy等插件进行网络分析,前端可以使用Matplotlib进行可视化展示,一个展示效果图如下所示: 一些资源:• Code&data used in this lecture: http://www.cl.cam.a原创 2017-03-13 17:05:59 · 16581 阅读 · 0 评论 -
终身机器学习(Lifelong Machine Learning)综述
原文地址:http://blog.csdn.net/qrlhl/article/details/49364173大概有十几天了没有回来更新博客了吧,这期间遇到了大大小小各种事情,最悲伤的事应该是跟我关系最好的一个哥们的父亲去世了,被酒驾的人撞了,希望叔叔在天国安好!再次告诫各位开车一定不能喝酒,不只是对自己负责,也是对他人生命的尊重,在这里谢过大家了!下面说一说我这些天积累的一点东转载 2017-03-23 11:00:10 · 1073 阅读 · 0 评论 -
社区发现(Community Detection)算法
作者: peghoty 出处: http://blog.csdn.net/peghoty/article/details/9286905 社区发现(Community Detection)算法用来发现网络中的社区结构,也可以看做是一种聚类算法。以下是我的一个 PPT 报告,分享给大家。转载 2017-03-15 11:00:20 · 2225 阅读 · 1 评论 -
hive表信息查询:查看表结构、表操作等
转自:http://www.aboutyun.com/forum.PHP?mod=viewthread&tid=8590&highlight=Hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表1.hive模糊搜索表 show tables like '*name*';2.查看表转载 2017-05-09 20:08:34 · 2206 阅读 · 0 评论 -
将sklearn生成的决策树进行图形化展示
1,工具和平台:python2.7 windows2,决策树的可视化展示据我所知有两种途径:一是将生成的结果导出为pmml文件,工具包为sklearn2pmml等,具体可见https://github.com/jpmml/jpmml-sklearn 和https://github.com/jpmml/sklearn2pmml 如果遇到安装问题可以留言;而是进行graphviz的图形原创 2017-06-22 11:42:15 · 14870 阅读 · 2 评论 -
SAS中调用动态链接库(C++,DLL)
1,动态链接库编译使用VS2015创建“Win32项目”,选择应用程序类型为“DLL”,创建项目完成后,头文件中:#ifdefEXT_DEC_EXPORTS#defineEXT_DEC_API__declspec(dllexport)#else#defineEXT_DEC_API__declspec(dllimport)原创 2017-07-04 15:11:52 · 828 阅读 · 0 评论 -
CTR预估中GBDT与LR融合方案
原文链接:http://blog.csdn.net/lilyth_lilyth/article/details/480321191、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[转载 2017-11-06 10:30:15 · 373 阅读 · 0 评论 -
Practical Lessons from Predicting Clicks on Ads at Facebook
ABSTRACT这篇paper中作者结合GBDT和LR,取得了很好的效果,比单个模型的效果高出3%。随后作者研究了对整体预测系统产生影响的几个因素,发现Feature(能挖掘出用户和广告的历史信息)+Model(GBDT+LR)的贡献程度最大,而其他因素(数据实时性,模型学习速率,数据采样)的影响则较小。 1. INTRODUCTION介绍了先前的一些相关paper。包括G转载 2017-11-06 10:32:30 · 402 阅读 · 0 评论 -
Centos系统安装spark单机版
1, 配置JAVA_HOME通过yum等方式,可以安装最新的java版本(yum install java)。安装完java后,我们需要配置JAVA_HOME,首先要确定jdk安装的位置:[root@bogon marshall]# which java /usr/bin/java[root@bogon marshall]# [root@bogon marshall]# ls -lrt/us...原创 2018-02-22 11:09:21 · 1733 阅读 · 0 评论 -
皮尔森相关系数及python计算代码
在社交网络中,如果对用户进行聚类,一般有两种距离计算方法:节点之间的图举例和节点的相似度计算。其中,节点的相似度计算可以采用皮尔森相关系数给定连个连续变量X和Y,皮尔森相关系数被定义为等于两个变量的协方差除于两个变量的标准差:系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。皮尔森相关系数是衡量线性关联性的程度,p的原创 2017-03-10 12:43:49 · 10605 阅读 · 1 评论 -
层次聚类算法的原理及实现Hierarchical Clustering
Read more: http://bluewhale.cc/2016-04-19/hierarchical-clusteri层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种转载 2017-03-09 17:24:42 · 2571 阅读 · 0 评论 -
sas基础知识大全
5.1 SAS表达式简介 1.SAS常数表达式 (1)数值常数 如: 1.23、 -5、 0.5E-10。 (2)字符常数 如: name1='TOME'、 name2='MARY'、name3='JOHN'。 (3)日期(d)、时间(t)、日时(dt)常数 如: d1='01JAN80'd、t1='9:25:19't、 dt1='18JAN80:9:27:05'dt转载 2015-12-09 18:48:36 · 5341 阅读 · 0 评论 -
SAS9.3 64位版Win7安装指引
SAS9.3 64位版安装指引换了新电脑,安装原来使用的SAS9.2之后,增强型编辑器一直不能被加载,尝试了各种方法,浪费了一天的时间。无奈下载了SAS9.3 64位版本,但是安装也不顺利,当然主要是JDK出现了问题,参考了网友的文章,顺利完成了安装,另注操作系统为win7 64位版。原文地址:http://f.dataguru.cn/thread-161588-1-1.html1,主原创 2014-07-18 14:33:47 · 5994 阅读 · 0 评论 -
SAS程序:将目录下的所有指定格式的数据文件导入SAS
原文地址:http://blog.sina.com.cn/s/blog_534569bc0100duq3.html转载 2014-07-18 14:53:59 · 5542 阅读 · 0 评论 -
DATA Step与PROC SQL的对比
DATA Step与PROC SQL的对比DATA Step vs. PROC SQL: What’s a neophyte to do? -原文地址:http://www2.sas.com/proceedings/forum2007/237-2007.pdf转载请注明出处:http://blog.sina.com.cn/s/blog_5d3b177c0100c6tv.html这篇转载 2014-09-12 10:21:29 · 1748 阅读 · 0 评论 -
信用评分卡研究学习笔记(1)-皮尔森相关系数
原创 2014-11-07 12:36:52 · 1173 阅读 · 0 评论 -
sas中retain语句的作用
整理自:http://bbs.pinggu.org/thread-952476-1-1.htmlQ1:data a; set b;run; Set的作用是将数据集b中的记录逐条读入PDV中,在run语句的地方SAS会将pdv中的变量输出到数据集a中。SAS帮助:What SET DoesEach time the SET statemen转载 2015-03-27 10:57:26 · 32761 阅读 · 1 评论 -
sas导入外部数据文件
1.设在路径:c:"books"learning下有文本文件mydata.txt,其数据以空格格开,形式如下:M 50 68 155F 23 60 101M 65 72 220F 35 65 133M 15 71 166读入SAS的代码如下:data demographics;infile 'c:"books"learning"mydata.txt';转载 2015-05-20 19:14:09 · 1957 阅读 · 0 评论 -
SAS定义宏变量三种方法
SAS 中定义宏变量方法主要有以下三种: 一、%LET定义 这是最常用的方法。语法过程为:%let 宏变量名=值;调用宏变量:&宏变量名 Tips: 1、以逗号作为宏变量定义的结束。 2、在定义时候不要加引号,系统会把引号当作宏变量的值之一。 3、宏变量的作用域分为全局与局部。转载 2015-07-03 14:24:06 · 21738 阅读 · 0 评论 -
SQL中的取整函数FLOOR、ROUND、CEIL、TRUNC、SIGN
1 trunc(value,precision)按精度(precision)截取某个数字,不进行舍入操作。2 round(value,precision)根据给定的精度(precision)输入数值。3 ceil (value) 产生大于或等于指定值(value)的最小整数。4 floor(value)与 ceil()相反,产生小于或等于指定值(value)的最小整数。5 sign转载 2015-08-13 17:01:58 · 12303 阅读 · 0 评论 -
sas14位日期数字字符串转sas日期
sas中的时间日期转化是个十分麻烦繁琐的过程,例如20151122084512 这14位数字,转成datetime20.的格式,试了多种方法才成功,做个笔记,下次就好找了:select dhms(mdy(input(substr(ftime,5,2),8.),input(substr(ftime,7,2),8.),input(substr(ftime,1,4),8.)),原创 2015-11-27 10:17:05 · 11771 阅读 · 0 评论 -
在python中使用评分卡技术
最近发现了一款使用python实现的评分卡相关技术的插件woe,这里总结分享一下。项目网址:https://github.com/boredbird/woe,安装方式十分简单,直接使用pip安装即可:pip install woe或者pip installgit+https://github.com/boredbird/woe一、 相关概念1.1 最优分组最优分组或者最原创 2018-04-19 17:23:07 · 6301 阅读 · 0 评论