- 博客(33)
- 资源 (12)
- 收藏
- 关注
转载 详细探究Spark的shuffle实现
详细探究Spark的shuffle实现分类: spark2014-03-30 23:20 5451人阅读 评论(2) 收藏 举报目录(?)[+]Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接
2015-09-22 17:01:17 492
转载 知乎spark与hadoop讨论
与 Hadoop 对比,如何看待 Spark 技术?修改最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?-----------补充------------希望大家能将关注点放在Spark上。另
2015-09-22 16:34:58 2173
转载 Hadoop与Spark等数据处理系统哪个是最好的?
如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,没有某个单个系统总是会比其他系统性能高,也就是说,几乎每个系统都有自己特定场景下的最好性能表现。所以,选择一个数据处理系统应该将其工作负载贴近其最佳设计点,但是我们很容易忽视这点,导致宗教式的
2015-09-22 12:16:38 1056
转载 Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streami
2015-09-22 11:53:10 689
转载 Dryad
DryadThe Dryad Project is investigating programming models for writing parallel and distributed programs to scale from a small cluster to a large data-center.OverviewNew! D
2015-09-22 11:51:21 886
转载 微软Dryad
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下
2015-09-22 11:38:51 579
转载 军工企业保密工作当前面临的新问题
(原作者:向晓虹)以“兴船报国、创新超越”为宗旨的中船重工集团,历经了多年的创新发展和军工人的不懈努力,保密工作积淀了深厚的底蕴和实践经验;但随着新形势的发展和信息化技术的普遍应用,保密工作面临着新的问题与考验,需要我们在实际工作中进一步探索保密工作的客观规律,做好新形势下的保密管理工作,真正担负起保安全、保发展、保效益的重任。军工企业保密工作当前面临的新问题随着我国综合国力的日益增强,我
2015-09-17 15:58:47 4400
转载 谈电子政务云
首先对电子政务云做个理解,电子政务云是依托云数据中心,在数据上统一人口、法人、自然资源与地理空间信息和宏观经济四大基础信息库,通过服务共享平台,让应用上重点关注政府与政府、政府与企业、政府与公民、政府与公务员层面的四大交互。在这里也可以理解为建立一个云数据中心,两个平台(即SOA服务共享平台和大数据平台),处理好四大类的电子政务交互关系,具体的架构可以参考下图:在这里要注意
2015-09-08 19:06:59 1464
转载 卡方检验文本特征选择
卡方检验文本特征选择 2014-11-17 20:16:15分类: 大数据关于卡方检验,下面这篇blog介绍的比较详细,仔细思索之后,对一些点做如下说明,个人理解:1. 关于假设“词t与类别c无关”。这个假设应该变更为“词t不是对分类有区分度的特征”,(c是一个类别,除了c之外的所有数据组成另一个类别,类似逻辑回归多分类的方法)。一个词的卡方检验值高,并不能
2015-09-03 19:56:38 675
转载 BM25算法
1. BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。K1通常为1.2,通常为0-1000K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均
2015-09-03 18:58:57 477
转载 NoSQL
NoSQL 锁定本词条由“科普中国”百科科学词条编写与应用工作项目 审核 。[1-2] NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据
2015-09-03 08:36:39 692
转载 Pearson's chi-squared test
Pearson's chi-squared testFrom Wikipedia, the free encyclopediaPearson's chi-squared test (χ2) is a statistical test applied to sets of categorical data to evaluate how likely it is
2015-09-02 10:14:48 3316
转载 Noncentral chi-squared distribution
Noncentral chi-squared distributionFrom Wikipedia, the free encyclopediaNoncentral chi-squaredProbability density functionCumulative distribution functionPara
2015-09-02 10:13:23 3345
转载 各大公司广泛使用的在线学习算法FTRL详解
转载请注明本文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-
2015-09-02 10:12:18 498
转载 浅谈深度学习(Deep Learning)的基本思想和方法
浅谈深度学习(Deep Learning)的基本思想和方法分类: 机器学习 信息抽取 Deep Learning2013-01-07 22:18 30420人阅读 评论(11) 收藏 举报深度学习(Deep Learning),又叫Unsupervised Feature Learning或者Feature Learning,是目前非常热的一个研究主题。本文将主要介绍D
2015-09-01 16:44:06 468
原创 Amazone HIT mturk
187,590 HITs available. View them now.HITs - Human Intelligence Tasks - are individual tasks that you work on
2015-09-01 16:40:10 467
转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件分类: 机器学习2012-09-22 17:05 74788人阅读 评论(37) 收藏 举报在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,
2015-09-01 16:34:08 459
转载 寻根究底,探讨 chi -square特征词选择方法后面的数学支持
寻根究底,探讨 chi -square特征词选择方法后面的数学支持最近研究特征词选择算法,主要在研究chi方统计量的方法。Christopher D Manning的书《信息检索导论》中(王斌译作191页,英文原版255页)的公式定义如下:我所迷惑不解的是这个公式为啥长成这个样子?对于我还是略有了解的,比如X~n(0,1),那么X^2就服从chi-square,
2015-09-01 16:30:44 1509
转载 隐马尔可夫模型及其在分词中的简单应用
隐马尔可夫模型及其在分词中的简单应用分类: 搜索引擎开发(数据挖掘、海量数据处理、自然语言) 中文分词(分词/人名识别(命名实体识别)/词性标注)2011-11-07 09:38 1439人阅读 评论(0) 收藏 举报算法 隐马尔可夫模型是一个五元组:S:状态集合:即所有可能的状态s1,s2,…,sn所组成的集合。O:观察序列:即实际存在的一个状态的有向
2015-09-01 16:23:01 611
转载 看懂信息检索和网络数据挖掘领域论文的必备知识总结
看懂信息检索和网络数据挖掘领域论文的必备知识总结分类: 机器学习 lda 信息检索 gibbs sampling topic model 模拟与采样 图模型2012-06-15 17:02 8304人阅读 评论(5) 收藏举报网络算法lucene优化network工具信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)
2015-09-01 16:18:27 492
转载 一. 图模型(graphical model, GM)的表示
一. 图模型(graphical model, GM)的表示分类: 图模型2010-07-29 17:17 9527人阅读 评论(8) 收藏 举报function网络图形2010c图模型(graphical model)是一类用图来表示概率分布的一类技术的总称。它的主要优点是把概率分布中的条件独立用图的形式表达出来,从而可以把一个概率分布(特定的,和应用相关的)
2015-09-01 16:17:40 578
转载 文本分类与SVM
文本分类与SVM分类: 数据挖掘2012-11-18 20:45 19063人阅读 评论(14) 收藏 举报目录(?)[+]之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论挖掘,也曾经将libsvm进行包装,写了一个文本分类的开软软件Tmsvm。所以这里将之前做过一些关于文本分类的东西整理总结一下。1 基础
2015-09-01 16:15:03 2395
转载 HMM学习最佳范例四:隐马尔科夫模型
HMM学习最佳范例四:隐马尔科夫模型发表于 2009年06月23号 由 52nlp四、隐马尔科夫模型(Hidden Markov Models)1、定义(Definition of a hidden Markov model) 一个隐马尔科夫模型是一个三元组(pi, A, B)。 :初始化概率向量; :状态转移矩阵; :混淆矩阵; 在状态转
2015-09-01 16:12:39 607
转载 决策树模型组合之(在线)随机森林与GBDT
决策树模型组合之(在线)随机森林与GBDT前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boosting,Bagging等)与决策树相关的算
2015-09-01 16:05:46 727 1
转载 文本分类综述
之前一段时间弄过文本分类的事情,现在发个文总结一下。文本分类问题的定义是根据一篇文档的内容,从预定义的类别标号里选择相应的类别。中文文本分类的基本步骤是中文分词、特征提取、训练模型、预测类别等步骤,需要说明的是,基于统计的文本分类一般都需要有比较好的标注好的语料作为训练集,训练出模型,利用模型对未分类的文本进行分类。对中文文本的处理一个无法避免的步骤就是分词,中文不像英文那
2015-09-01 16:01:47 804
转载 LDA(Latent Dirichlet Allocation)主题模型算法
LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出的两个结果
2015-09-01 15:50:13 821
转载 探索 Pexpect,第 2 部分:Pexpect 的实例分析
概述通过本系列第一部分《探索 Pexpect,第 1 部分:剖析 Pexpect 》(请参阅参考资料)的介绍,相信大家已经对 Pexpect 的用法已经有了比较全面的了解,知道 Pexpect 是个纯 Python 语言实现的模块,使用其可以轻松方便的实现与 ssh、ftp、passwd 和 telnet 等程序的自动交互,但是读者的理解还可能只是停留在理论基础上,本文将从实际例子入手具体
2015-09-01 15:44:31 589
转载 探索 Pexpect,第 1 部分:剖析 Pexpect
概述Pexpect 是 Don Libes 的 Expect 语言的一个 Python 实现,是一个用来启动子程序,并使用正则表达式对程序输出做出特定响应,以此实现与其自动交互的 Python 模块。 Pexpect 的使用范围很广,可以用来实现与 ssh、ftp 、telnet 等程序的自动交互;可以用来自动复制软件安装包并在不同机器自动安装;还可以用来实现软件测试中与命令行交互的自动化。
2015-09-01 15:43:52 390
转载 将linux默认python升级到2.7.4版本
将linux默认python升级到2.7.4版本 (2013-05-25 23:21:09)转载▼标签: linux python 升级 centos python2.7分类: python第一步:下载python2.7.4版本源码:wget http://p
2015-09-01 15:31:31 540
转载 SSH 远程执行命令简介
SSH 远程执行命令简介在之前,看到大都是说修改/etc/sudoers,然后NOPASSWD:指定的cmd,但是真心不管用,没有远程虚拟终端这个方法就是浮云,Ubuntu10.04 Server 亲测!!ssh执行远程操作命令格式ssh -p $port $user@$p 'cmd'$port : ssh连接端口号$user: ssh连接用户名$ip:ssh连接的ip
2015-09-01 15:29:49 540
转载 ssh批量登录并执行命令(python实现)
ssh批量登录并执行命令(python实现) 人生苦短,我用python! 局域网内有一百多台电脑,全部都是linux操作系统,所有电脑配置相同,系统完全相同(包括用户名和密码),ip地址是自动分配的。现在有个任务是在这些电脑上执行某些命令,者说进行某些操作,比如安装某些软件,拷贝某些文件,批量关机等。如果一台一台得手工去操作,费时又费力,如果要进行多个操作就更麻
2015-09-01 15:27:35 762
转载 机器学习常见算法分类汇总
机器学习常见算法分类汇总机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。
2015-09-01 15:17:50 469
转载 快速理解Docker - 容器级虚拟化解决方案
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/是什么 简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案 拿现实世界中货物的运输作类比, 为了
2015-09-01 14:26:44 399
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人