- 博客(49)
- 资源 (26)
- 收藏
- 关注
原创 两种分布式数据交互式处理解决方案Prestosql VS Ignite
以下介绍两种分布式数据交互式处理解决方案。这两种方案都能在不需要ETL的基础上实现数据的交互式处理。1.Prestosql第一种是采用经典的数据联合查询引擎PrestoSQL而非PrestoDB。 Prestosql主要提供分布式的数据查询引擎,并不直接提供存储组件,而是依赖第三方数据库作为存储组件。Presto查询引擎是一个传统的Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server
2020-11-30 17:50:26 856
原创 Spark 应用程序两种java编程提交方式
通常的方式提交spark程序是是通过spark的submit程序实现,例如在linux系统中执行./spark-submit 提交自定义的spark应用程序。但是很多时候我们需要通过程序的方式提交spark应用程序。这里提供两类通过java程序动态提交spark,其中一种是streamsets中提交spark程序的方式。第一种方式:通过SparkSubmit.main()方法提交...
2019-02-12 15:19:22 1949
转载 贝叶斯网络(belief network)
转至:http://f.dataguru.cn/forum.php?mod=viewthread&tid=508373&page=1&authorid=937251 贝叶斯方法 长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比
2016-05-26 17:40:40 26561 2
转载 KMP算法解释
这是我看到的对KMP算法解释的比较好的博文,所以转载过来。这里希望大家对最后的前缀和后缀有所理解,其实这个算法就是匹配时每次需要从相同前缀的后面重新开始匹配。因为这样就不会漏掉不同的前缀部分的匹配,而相同部分不用再次匹配的道理。具体请看下面转载的博文:转载至http://kb.cnblogs.com/page/176818/ 字符串匹配是计算机的基本任务之一。 举
2015-12-22 20:51:26 806
转载 mapreduce 缺陷的理性回归
转至:http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html这篇文章是由databasecolumn的几个数据库大牛写的,简要的介绍了MapReduce以及将其与现代数据库管理系统进行了对比,并指出了一些不足之处。本文纯属学习性翻译,从多方面来了解MapReduce,不代表完全赞同原文的观点。请读者也辩证的
2015-04-08 14:23:03 1798
转载 MapReduce 简单实例理解
转自:http://blog.csdn.net/richerg85/article/details/19616559什么是Map/Reduce,看下面的各种解释:(1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上
2015-04-08 13:56:10 888
原创 通过 Web Service 调用Pentaho BI 的API
Pentaho BI 支撑外部通过Web Service进行访问。访问方法通过post和接收response来与BI的web service进行交互实现。
2015-04-03 11:20:38 2342
转载 CNN 深度神经网络
转载至:http://blog.csdn.net/zouxy09/article/details/8781543/Convolutional Neural Networks卷积神经网络 卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维
2015-04-03 10:28:19 3702
转载 auto-encoder 型深度神经网络
1)autoencoderautoencoder是一种无监督的学习算法,他利用反向传播算法,让目标值等于输入值。如图所示:Autoencoder尝试学习一个 的函数。也就是说autoencoder尝试逼近一个恒等函数,使得输出接近于输入 。当然为了使这个函数有意义,需要加入一些限制条件(比如说限制隐藏神经元的数目),就可以发现一些有意义的结构。Autoencoder可以学习到
2015-04-03 10:24:03 2747
翻译 Mondrian 架构
Mondrian架构的官网翻译。其中省略了MDX介绍和MOLAP,ROLAP介绍。Mondrian的OLAP系统由4层组成,参见下图。从终端用户到数据中心内核,四层架构分别是:展现层(presentation layer)、维度层(dimensional layer)、星层(star layer)和存储层。
2014-06-17 15:47:49 2029
原创 大数据时代的新BI系统架构发展趋势
商业智能(BI,Business Intelligence),它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。本文分析了BI系统与大数据分析结合的趋势和软件架构方案。
2014-05-12 11:44:11 5097
转载 Baumwelch 算法训练HMM
学习问题在HMM模型中,已知隐藏状态的集合S,观察值的集合O,以及一个观察序列(o1,o2,...,on),求使得该观察序列出现的可能性最大的模型参数(包括初始状态概率矩阵π,状态转移矩阵A,发射矩阵B)。这正好就是EM算法要求解的问题:已知一系列的观察值X,在隐含变量Y未知的情况下求最佳参数θ*,使得:在中文词性标注里,根据为训练语料,我们观察到了一系列的词(对应EM中的X),如果每
2014-05-05 17:14:36 2609
转载 teiid数据联邦解决方案
虚拟数据库(Virtual Database–VDB) 是将一个或多个物理数据源组合起来以提供更简单的数据集成解决方案,它提供了包含组件的容器,这些组件用来集成不同数据源的数据,并通过一致的 API 来访问它们。这些物理数据源包括: JDBC 数据源、CSV 文本文件、数据表,甚至可以是 Web services。这种技术被称为是“数据联邦” -Data federation。数据联邦技术
2014-04-29 09:59:57 1826 1
原创 Convolutional Neural Networks 卷积神经网络
感觉这篇总结的比较全面,就不在自己写了。请参阅:http://blog.csdn.net/zouxy09/article/details/8781543
2014-04-21 21:49:37 1357
转载 python 虚拟环境
virtualenvvirtualenv用于创建独立的Python环境,多个Python相互独立,互不影响,它能够:1. 在没有权限的情况下安装新套件2. 不同应用可以使用不同的套件版本3. 套件升级不影响其他应用安装sudo apt-get install python-virtualenv使用方法virtualenv [虚拟环境名称] 如,创建*
2014-04-11 16:04:35 1172
转载 unbutu 下 python 开发环境配置
在Ubuntu下配置舒服的Python开发环境Ubuntu 提供了一个良好的 Python 开发环境,但如果想使我们的开发效率最大化,还需要进行很多定制化的安装和配置。下面的是我们团队开发人员推荐的一个安装和配置步骤,基于 Ubuntu 12.04 桌面版本标准安装。安装 Python 发布版本和 build 依赖包建议至少安装 Python 2.7/3.2 版本,毕竟 Pytho
2014-04-11 15:56:30 1242
转载 Python扩展和嵌入: Cython三分钟入门(笔记)
python代码实现Python代码 #p1.py import math def great_circle(lon1,lat1,lon2,lat2): radius = 3956 #miles x = math.pi/180.0 a = (90.0-lat1)*(x) b = (90.0-lat2)*(x) t
2014-03-31 15:21:11 1667
转载 用Cython编译Python的C扩展
部分的Python代码并未用到其动态性,却为此多付出了很多时间,所以出于性能考虑就会改用C扩展来加速。然而用C写代码明显比Python麻烦多了,接口的处理也很繁琐,所以我一直没去尝试。昨晚看到一篇《Cython三分钟入门》,让我眼前一亮:居然可以把大部分Python代码直接编译成C扩展(当然手动改写会更快,和C代码速度几乎完全相同)。而且它是完全自由的,可以使用任何许可证:public d
2014-03-31 15:20:11 5531 1
转载 cython安装、使用
一、cython 在linux(ubuntu)下安装sudo apt-get install cython安装后 输入 cython 即可验证是否安装成功二、 使用 1、编写 以 .pyx为扩展名的 cython程序,hello.pyx[python] view plaincopydef say_hello_to(name):
2014-03-28 17:27:22 5072
转载 Cython三分钟入门
原文:http://www.perrygeo.net/wordpress/?p=116我最喜欢的是Python,它的代码优雅而实用,可惜纯粹从速度上来看它比大多数语言都要慢。大多数人也认为的速度和易于使用是两极对立的——编写C代码的确非常痛苦。而 Cython 试图消除这种两重性,并让你同时拥有 Python 的语法和 C 数据类型和函数——它们两个都是世界上最好的。请记住,我绝不是我在这
2014-03-28 17:22:47 899
转载 加速你的Python代码
在我看来,python社区分为了三个流派,分别是python 2.x组织,3.x组织和PyPy组织。这个分类基本上可以归根于类库的兼容性和速度。这篇文章将聚焦于一些通用代码的优化技巧以及编译成C后性能的显著提升,当然我也会给出三大主要python流派运行时间。我的目的不是为了证明一个比另一个强,只是为了让你知道如何在不同的环境下使用这些具体例子作比较。使用生成器 一个普遍被忽略的内存优化是
2014-03-28 17:13:08 908
转载 python扩展实现方法--python与c混和编程
前言需要扩展Python语言的理由:创建Python扩展的步骤1. 创建应用程序代码2. 利用样板来包装代码a. 包含python的头文件b. 为每个模块的每一个函数增加一个型如PyObject* Module_func()的包装函数c. 为每个模块增加一个型如PyMethodDef ModuleMethods[]的数组d. 增加模块初始化函数void initMethod()
2014-03-28 16:45:25 889
转载 HMM 隐式马尔科夫模型
通过前几时断续的学习,发现自己对HMM模型的了解还只停留在皮毛,导致在学习CRF模型并将其与最大熵模型、HMM、MEMM做比较时感觉很吃力,所以又花了两天时间使劲看了遍HMM,发现了解得确实深刻了很多,现小结一下,争取把看过的知识变成自己的,特别感谢52nlp网站http://www.52nlp.cn/和崔晓源翻译的HMM相关资料,英文学习网站http://www.comp.leeds.ac.uk
2014-03-11 15:17:21 2694
转载 Python下划线与命名规范
以下分四种情况说明下划线的作用,python对成员域没有严格控制,大部份只是作为命名规范存在,以下英文部份摘自python官方网站 _single_leading_underscore: weak "internal use" indicator. E.g. "from M import *" does not import objects whose name starts wit
2014-02-20 10:50:27 916
转载 在Source Insight中看Python代码
在Source Insight中看Python代码软糖原创,转载要厚道。请附本文链接~ http://rttech.spaces.live.com/Blog/cns!1D57B9457EA24D18!146.entry SI是个很强大的代码查看修改工具,以前用来看C,C++都是相当happy的。最近需要用Python,看了两天毫无颜色的UltraEdit之后决定,还是迁移回S
2014-01-26 17:01:30 1598
转载 NumPy 矩阵处理
NumPy 是 Numerical Python 的简称,是高性能计算和数据分析的基础包。本书中几乎所有高级工具都是建立在它的基础之上,下面是它所能做的一些事情:ndarray,快速和节省空间的多维数组,提供数组化的算术运算和高级的 广播 功能。使用标准数学函数对整个数组的数据进行快速运算,而不需要编写循环。读取/写入磁盘上的阵列数据和操作存储器映像文件的工具。线性代数,随机数生成
2014-01-08 14:17:43 25762 3
原创 matlab与python 语言区别总结
从matlab转到python一定要了解两种语言的区别,本文总结了matlab与python语法上区别的一些主要容易混淆的不同。
2013-12-27 16:01:58 25444 2
原创 Windows 下 AnacondaCE 安装 Theano 0.6.0rc3 问题
AnacondaCE 安装 Theano 0.6.0rc3 时遇到WARNING (theano.configdefaults): g++ not detected 等问题的解决办法。绝对work!
2013-12-23 16:54:24 7260 3
原创 Deep Belief Networks (DBNs)
Deep Belief Networks(DBNs),是一类随机性Deep neural network,其可以用来对事物进行统计建模,表征事物的抽象特征或统计分布,在手写字识别和语音识别建模中,已被用于代替传统GMM,建立统计型声学模型等,并显示出优越的效果。 本文针对我们对DBN网络的理解,对DBN网络进行了一定的分析和诠释。
2013-12-17 13:22:35 17077
转载 gradient descent
回归(regression)、梯度下降(gradient descent)发表于332 天前 ⁄ 技术, 科研 ⁄ 评论数 3 ⁄ 被围观 1152 次+本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学,最
2013-12-13 13:50:13 1545
原创 Restricted Boltzmann Machines
本文根据我们在Restricted Boltzam Machines(RBMs)上学习和理解,分析大量文献资料形成了RBMs工作和学习过程的总结。文章分别并通过举例和形式化两方面深入浅出的讲解了Restricted Boltzam Machines(RBMs)网络结构,其工作原理,建模原理和RBMs的学习过程。
2013-12-11 08:43:16 11876
原创 Sqlite 大数据量删除问题
不知道大家有没有尝试过在Sqlite数据库中一次性删除上千条数据。你会发现删除函数返回后,但是数据并未删除。这是怎么回事喃?正是Sqlite这个轻量级数据库本身的缺陷,无法高速处理大数据量操作。不信引用一段Android源码你们看看Google是如何写Sqlite删除语句的。do { currentnumber++; id
2013-12-10 16:31:22 4773
原创 单通道语音分离之CASA技术
语音分离技术研究已有30-40年的历史。纵观语音分离技术,根据输入源数量的多少来划分,可以分为多通道语音分离技术、双通道语音分离技术和单通道语音分离技术。由于多通道语音分离技术采用多个声源信号同时进行分析,从而分离出想要的单个或多个语音信号,因此可以采用空间信号处理技术或一定的盲源分离技术,其经典算法有ICA, beamform等。相对多通道情况,双通道主要适合如两个声音采集端,即两个麦克风的语音
2013-12-10 16:10:39 7100 5
pytext-0.3.1.zip
2020-04-15
android 上的 OCR 源码
2014-04-22
EJB Design Patterns
2013-12-18
算法设计与分析课件
2013-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人