buptdavid-CSDN博客

转载何时使用MLP，CNN和RNN神经网络

什么神经网络适合你的预测建模问题？对于深层学习领域的初学者来说，知道使用哪种类型的网络可能是困难的。每天都有那么多类型的网络可供选择，并且有新的方法被公布和讨论。更糟糕的是，大多数神经网络足够灵活，即使用于错误的数据类型或预测问题，它们也能够工作（进行预测）。在这篇文章中，你将发现三种主要人工神经网络的建议用途。读完这篇文章，你会知道：...

2019-11-17 07:02:49 5916 1

转载快刀初试：Spark GraphX在淘宝的实践

（本文由团队中梧苇和我一起撰写，并由团队中的林岳，岩岫，世仪等多人Review，发表于程序员的8月刊，由于篇幅原因，略作删减，本文为完整版）对于网络科学而言，世间万物都可以抽象成点，而事物之间的关系都可以抽象成边，并根据不同的应用场景，生成不同的网络，因此整个世界都可以用一个巨大的复杂网络来代表。有关复杂网络和图算法的研究，在最近的十几年取得了巨大的进展，并在多个领域有重要的应...

2019-10-08 10:58:57 810

转载 pregel 与 spark graphX 的 pregel api

2019-09-18 18:39:37 551

转载 GraphX PageRank

原文出处：https://blog.csdn.net/lsshlsw/article/details/41176093一：算法介绍PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。一个页面的“得票数”由所有链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。一个页面的PageRank...

2019-08-28 11:52:52 854

原创 Graphx中pregel详解及具体应用分析（以PageRank为例）

Spark Pregel参数说明Pregel是个强大的基于图的迭代算法，也是Spark中的一个迭代应用aggregateMessage的典型案例，用它可以在图中方便的迭代计算，如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说，这个api还算是一个比较重量组的接口，不太容易理解。 Spark中的Pregel定义如下：def pregel[A: ClassTag](...

2019-08-07 15:54:52 1202

转载 Spark GraphX在淘宝的实践

原文链接：http://rec-sys.net/forum.php?mod=viewthread&tid=398由于Spark GraphX性能良好，又有丰富的功能和运算符，能在海量数据上自如运行复杂的图算法，淘宝尝试将它作为分布式图计算平台，进行各种算法尝试和生产应用。本文结合GraphX的原理和特点，分享其在淘宝的应用实践。早在0.5版本，Spark就带了一个小型的Bag...

2019-07-29 11:00:27 500

转载 Spark图计算GraphX介绍及实例

1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知·，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博和微信等，这些都是大数据产生的地方都需要图计算，现在的图处理基本都是分布式的图处理，而并非单机处理。Sp...

2019-07-29 10:45:43 504 1

转载 pagerank以及个性化的pagerank算法

pagerank最开始是Google提出来用来衡量网页重要度排行的算法。她的思想是基于网页之间互相的链接作为加权投票。假如网页a指向b，那么网页b的重要程度受网页a的影响，a越重要，则b就越重要。假如网页c也指向b，但是c跟a对比，c指向其他网页的数量（出度）较少，那么c对b的贡献程度要大于a对b。下面是网页i的重要程度的公式，其中d是一个概率，in(i)表示所有指向网...

2019-07-23 10:42:45 1310

转载个性化PageRank在欺诈检测中的应用

论文：GOTCHA! Network-Based Fraud Detection for Social Security Fraud作者：Véronique Van Vlasselaer, Tina Eliassi-Rad,来源：Management Science 160.论文概况本文提出针对公司偷税逃税这一类社会保证欺诈问题的检测方法，全篇论文非常系统化接地气，值得一读：通过对...

2019-07-22 18:40:12 1755

转载标签传播算法(Label Propagation Algorithm)

1. 半监督学习(Semi-supervised Learning SSL)半监督学习是一种有监督学习和无监督学习想结合的一种方法，其主要思想是基于数据分布上的模型假设，利用少量的已标注数据进行指导并预测未标记数据的标记，并合并到标记数据集中去。2. 完全图在图论的数学领域，完全图是一个简单的无向图，其中每对不同的顶点之间都恰连有一条边相连。完整的有向图又是一个有向图，其中每对不同的顶点通...

2019-07-22 09:00:21 4461

转载社区发现算法总结（一）

在做东西的时候用到了社区发现的算法，因此查找了好多人的文章，发现一个不错的总结，先转载过来原文出处http://blog.csdn.net/aspirinvagrant/article/details/45577033在社区发现算法中，几乎不可能先确定社区的数目，于是，必须有一种度量的方法，可以在计算的过程中衡量每一个结果是不是相对最佳的结果。模块度（Modularity）用来衡...

2019-07-02 15:30:59 17606 1

转载什么是迁移学习？迁移学习的场景与应用

作者：机器之心链接：https://www.zhihu.com/question/41979241/answer/208177153来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。Part 1：什么是迁移学习？迁移学习的场景与应用。深度 | 迁移学习全面概述：从基本概念到相关研究文章来源于http://sebastianruder.com，作...

2019-05-24 14:18:08 22172 2

转载 KS值和GINI系数

有效性指标中的区分能力指标：KS(Kolmogorov-Smirnov)：KS用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。KS的计算步骤如下： 1. 计算每个评分区间的好坏账户数。 2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)...

2018-11-20 20:06:26 6211

转载 spark-------主成分分析（PCA）

主成分分析（PCA）1、概念介绍主成分分析（PCA）是一种对数据进行旋转变换的统计学方法，其本质是在线性空间中进行一个基变换，使得变换后的数据投影在一组新的“坐标轴”上的方差最大化，随后，裁剪掉变换后方差很小的“坐标轴”，剩下的新“坐标轴”即被称为主成分（Principal Component），它们可以在一个较低维度的子空间中尽可能地表示原有数据的性质。主成分分析被广泛应用在各种统...

2018-09-28 12:17:31 1603

PCA（Principal Component Analysis，主成分分析）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理，帮助读者了解PCA的工作机制是什么。当然我并不打算把...

2018-09-28 12:14:02 2109

转载浅析Logistic Regression

原文出处：https://chenrudan.github.io/blog/2016/01/09/logisticregression.html本文是受rickjin老师的启发，谈谈关于logistic regression的一些内容，虽然已经有珠玉在前，但还是做一下自己的总结。在查找资料的过程中，越看越觉得lr实在是博大精深，囊括的内容太多太多了，本文只能浅显的提到某些方面。文章的内容如下:1....

2018-05-17 17:56:27 2169

转载协同过滤的ALS算法

原文地址：http://blog.csdn.net/antkillerfarm/article/details/53734658ALS算法原理http://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html上面的网页概括了ALS算法出现之前的协同过滤算法的概况。ALS算法是2008年以来，用的比

2018-01-04 14:50:36 3677 1

转载协同过滤推荐算法总结

原文出处：http://www.cnblogs.com/pinard/p/6349233.html　　　　推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推

2017-12-28 16:28:25 1396

转载数据挖掘模型中的IV和WOE详解

文章来源：http://blog.csdn.net/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接

2017-11-16 18:15:25 898

原创测试数据

测试数据

2017-10-23 16:27:41 1195

转载 xgboost原理

2017-10-23 16:26:15 451

转载再谈数据挖掘——时序预测初探

文章出处: http://data.qq.com/article?id=2784 1. 背景先来看两个例子，下面两幅图展示了百度在趋势预测方面的应用案例，一个是世界杯期间的比赛输赢预测，另一个是北京各旅游景区的游客人数预测。这两幅图代表了大数据环境下趋势预测的典型场景，即事件预测和时序预测，本文重点关注第二幅图中的场景，即与

2016-12-01 14:23:48 10382

原创特征工程的重构

因为历史原因，目前我们的机器学习所需要的各种特征数据是通过一个MR程序来进行数据抽取，特征转换，数据存储，数据监控等，一个MR任务承担了太多了功能，导致程序的可读性，扩展性非常差，每次增加一个数据的抽取，转换都需要修改很多代码，而且极易出错，当要适应一个新的模型所需要的新型特征转换的时候，目前的特征工程更是不能胜任。基于此，痛中思痛，下定决心重构特征工程。首先这个特征工程的架构不是一蹴而就的，

2016-02-15 11:32:11 2245

转载机器学习个人资料整理

原文出处：http://blog.csdn.net/dream_angel_z/article/details/48525973学习Machine Learning也有很长一段时间了，前段时间在paper中应用了GTB（Gradient Tree Boosting）算法。在我的数据集上GTB的performance比Random Forest要稍微强一点，整个experimen

2015-11-23 16:58:49 2721 1

转载机器学习之特征工程

2015-11-23 15:59:37 17498 1

转载机器学习的最佳入门学习资源

原文出处：这是一篇很难写的文章，因为我希望这篇文章能对学习者有所启发。我在空白页前坐下，并且问自己了一个很难的问题：什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么，这个问题真的让我很烦恼。我必须把自己当做一个程序员和一个机器学习的初学者，站在这个角度去考虑最合适的资源。我找出了每个类型中最适合的资源。如果你是一个真正的初

2015-10-28 10:05:54 1258

原创 MapReduce Join操作

MapReduce 处理两个或多个数据源是经常的事，此时就要根据某个key将两个数据源进行Join操作，Join操作的原则是： 1) 如果两个数据源大小差不多，则直接使用DataJoin类进行Join操作 2) 如果两个数据源大小相差很大，则使用Distributed Cache机制将较小的数据源复制到所有节点并缓存起来，然后过滤大的数据源。如果缓存不小较小的数据源，可以先用Distribute

2015-07-24 20:25:33 1037

转载 MapReduce 中的两表 join 几种方案简介

概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce s

2015-07-16 17:32:36 5818

原创大数据的监控和数据准确性保证

我们目前的数据流程是：数据源数据经过挖掘处理转换等操作生成中间数据，入宽表，然后提取宽表数据入PDC，数据停留的地方有数据源–>中间数据–>宽表–>PDC。目前我们的监控措施如下: （1）数据源 –>中间数据–>宽表每个数据流有监控，监控的是每个数据的总量（2）每天运行监控监控宽表每个数据的变化（3）宽表–>PDC有对最终每种数据总量的监控和对数据的简单校验（

2015-07-15 11:44:46 7257

原创 Hadoop Map Reduce的Counter数量超过默认值120的解决方案

前一篇Hadoop的文章《Hadoop Map Reduce 限制counter的默认数量120》提到的一个Reduce的Counter数量超过默认值120待解决方案，今天终于有空去实现了，实现方法如下：使用类MultipleOutputs的对象write方法在reduce中进行统计计算，MultipleOutputs的使用可参考博文《hadoop文件输出控制，多路径输出到不同文件》. 直接上

2015-06-29 19:43:31 3834

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-06-26 20:20:07 502

转载选择Scala的理由？

原文出处： http://blog.csdn.net/asongoficeandfire/article/details/21195765先来张镇宅神图：为什么选择Scala火热的网上公开课网站Coursera采用了Scala来作为他们的首选编程语言。最初这个网站是由几个Stanford的学生用PHP写的，后来随着业务扩展，团队开始寻找合适的语言

2015-06-24 13:35:04 1143

转载 Linux 命令行快速进阶（一）常用命令行

原文出处：http://blog.csdn.net/lqhbupt/article/details/7785744常用命令行我们可能没有办法统计平均一个用户使用多少条命令行语句，如果推测的话，可以认为是25条命令。这25条命令是几乎是每一个使用命令行环境的用户都必须掌握的命令。现在，我们对这些常用命令进行详细的介绍。cat——打印/输出文件的内容cd——修改当前目录chmo

2015-06-24 10:38:09 2276

转载 Ubuntu快捷键终端快捷键

原文出处：点击打开链接1.关于终端的快捷键：Tab：tab键是比较常用的一个快捷键，它的作用是补全文件名或者路径。举例来说，输入”cd /ho”在按一下tab键，终端里就会显示”cd /home”了。如果您的文件夹下，有两个名字开头部分相同的文件，比如有”picture001.bmp”和”picture002.bmp”两个文件，输入”rm pic”以

2015-06-24 10:10:29 1258

转载如何在Java 8中愉快地处理日期和时间

原文出处：http://www.liaoxuefeng.com/article/00141939241051502ada88137694b62bfe844cd79e12c32000Java 8新增了LocalDate和LocalTime接口，为什么要搞一套全新的处理日期和时间的API？因为旧的java.util.Date实在是太难用了。java.util.Date月份从0开始，

2015-06-09 20:02:30 1211

转载 HashMap的原理和使用

原文出处：http://www.cnblogs.com/chenssy/p/3521565.html HashMap也是我们使用非常多的Collection，它是基于哈希表的 Map 接口的实现，以key-value的形式存在。在HashMap中，key-value总是会当做一个整体来处理，系统会根据hash算法来来计算key-value的存储位置，我们总是可以通过ke

2015-05-27 10:27:13 1800

转载 Double值取得小数点后两位的若干方法

原文出处：http://www.cnblogs.com/nayitian/p/3214178.htmlimport java.math.BigDecimal;import java.math.RoundingMode;import java.text.DecimalFormat;import java.text.NumberFormat;/** * Double值取得小数点

2015-05-26 10:05:33 20507 1

转载 IntelliJ IDEA导航特性Top20

在前面的文章里，我介绍了IntelliJ IDEA（以下称IntelliJ）中与代码补全及重构相关的特性。今天我将介绍另外一个利器——IntelliJ的导航（Navigation），只要运用得当，它将节约你大把的时间。作为一个IntelliJ的用户，你应先明确一点——IntelliJ是用来让你专注于代码的工具。只有这样我们才能充分利用并享受它的魔力。因此，大部分的时间里你应该专心工作于代码

2015-05-25 10:42:04 2250 1

原创递归和循环两种方式实现未知维度集合的笛卡尔积

什么是笛卡尔积？在数学中，两个集合X和Y的笛卡儿积（Cartesian product），又称直积，表示为X × Y，第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。假设集合A={a,b}，集合B={0,1,2}，则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1), (b,2)}。如何用程序实现笛卡尔积？如果编程前

2015-05-22 16:34:10 13140

原创不小心触雷的JAVA编程(A B C, 三个代码块分别输出什么?)

A B C, 三个代码块分别输出什么?A: Map map = new HashMap(); StringBuffer sb = new StringBuffer(); for (int i = 0; i sb.delete(0, sb.length());

2015-05-07 16:19:47 804

php+mysql鲜花网店系统

android开发环境安装手册

tomcat 5.5.27

Project2003PPT教程

飞鸽传书懒QQ最新版

显示器共享软件--就是共享呗，上传真麻烦！

空空如也