水浴月

累就对了,舒服是留给死人的!

【python】透彻解析csv文件

CSV的全称是Comma-Separated Values,故名思议,它通常是由逗号(comma)分隔的文件,当然也可以是其它字符分隔,这里我们仅以逗号为例。在CSV文件中,如果每行字符串中除了逗号分隔符以外其它地方没有出现任何逗号时,我们可以很轻松的将其split为多个value,但是: 1、...

2017-11-27 13:49:08

阅读数 426

评论数 0

matplotlib中文显示方块问题

这两天按照彻底解决matplotlib中文乱码问题已经正确配置jupyter notebook用matplotlib中文字体,但是,安装了seaborn并更新了conda之后发现,不管怎么修改~/anaconda/lib/python2.7/site-packages/matplotlib/mpl...

2017-10-20 09:46:43

阅读数 1934

评论数 0

scala中Array、List、Tuple异同

各数据结构是否长度可变? 各数据结构是否内容可变? 各数据结构声明方式有何差别? 各数据结构访问方式有何差异? 从数据结构的角度:  1)Array、List、Tuple都是不可变长的,BufferArray是可变长的  2)Array和List中的元素类型必须相同,Tuple...

2017-09-08 13:12:59

阅读数 619

评论数 0

scala创建动态二维数组Array[ArrayBuffer[]]三种写法

下面我们开始创建含有10个ArrayBuffer的Array,即Array(ArrayBuffer[Int])

2017-09-04 09:13:47

阅读数 3357

评论数 0

scala实现超限学习机(ELM)手写数字分类

超限学习机(Extreme Learning Machine)又叫极限学习机是黄广斌等于2006年提出,属于单隐层前馈神经网络SLFN。其输入权值和隐层阈值随机初始化,通过最小二乘法计算得出输出权值,具有很好的分类和回归性能,与其它机器学习算法相比最大的优势是计算速度快,因为ELM不需要进行迭代。...

2017-09-03 14:38:57

阅读数 371

评论数 0

scala如何从文件读取数据并转换成矩阵

本文教你scala如何从文件中读取数据并转换成Breeze矩阵假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt 1,2,3,4,5,6 2,3,4,5,6,7 3,4,5,6,7,8第一步:读取数据...

2017-09-03 14:10:50

阅读数 2524

评论数 0

spark on yarn cluster 与 client 模式的区别

Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave...

2017-07-13 08:47:42

阅读数 672

评论数 0

为什么HDFS中的块如此之大?

HDFS中的块大小默认为64MB,为什么说它如此之大,这是与磁盘块相比得出的。所以在了解HDFS块之前,我们需要了解下磁盘上的块。

2017-06-22 08:35:38

阅读数 2131

评论数 0

Spark:工作集上的集群计算

摘要:MapReduce和它的变形在大规模数据密集型应用的实现上取得了巨大的成功。然而,多数的这些系统是围绕一个不适合其他流行应用程序的非循环数据流模型构建的。这篇文章把重点放在一类这样的应用程序:那些在多个并行操作中重用一组工作数据的应用程序。这包括许多迭代的机器学习算法,以及交互的数据分析工具...

2017-06-20 14:52:47

阅读数 898

评论数 0

Twister: 迭代MapReduce计算框架

这篇文章中,我们提出了一种编程模型和Twister结构,这是一种增强的MapReduce runtime,它支持高效地迭代MapReduce计算。我们也展示了在大型数据并行应用上Twister与其它类似的runtimes的性能比较,如Hadoop和DryadLINQ。

2017-06-15 10:20:52

阅读数 820

评论数 0

HaLoop:大集群上高效的迭代数据处理(下)

本文详细了介绍三种在HaLoop上实现的迭代算法:PageRank,Descendant Query,K-means聚类。

2017-06-12 21:11:26

阅读数 734

评论数 0

HaLoop:大集群上高效的迭代数据处理(上)

摘要:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计大数据计算平台新模式。MapReduce和Dryad是两种流行的平台,数据流在这两种平台上采用操作符的有向非循环图形式。迭代程序在数据挖掘、网页排名、图像分析、模型拟合等许多应用领域中自然而然地出现了,而这两种平台缺乏对迭代程序...

2017-06-09 12:49:12

阅读数 5032

评论数 0

基于MapReduce的并行k-means聚类

摘要:在许多应用上,数据聚类已经受到了广泛的关注,比如数据挖掘、文本检索、图像分割和模式识别。随着科技的进步而逐渐扩大的信息量使大数据聚类变成了一个具有挑战性的任务。为了解决这个问题,许多调查研究者尝试去设计一种高效的并行聚类算法。在这篇文章中,我们提出一种基于MapReduce的并行k-mean...

2017-06-02 07:39:50

阅读数 4698

评论数 0

基于apache ambari 的大数据平台搭建并运行WordCount

操作系统:3个 rhel 6.4,内存2g,动态硬盘20g。 虚拟机软件:virtualBox 注意: 1、yum可能要重新安装,可百度解决 1、确保三个host能互相ping通 每个host配置DNS vi /etc/hosts 为host4安装http服务 yum i...

2017-05-14 13:05:24

阅读数 659

评论数 2

【解决】virtualbox导入虚拟机后不能联网的问题

当你把导出的虚拟机文件(.ova)导入到virtualbox中,发现该虚拟机不能联网,不管在【设置->网络】中切换什么样的网络类型,都无济于事。下面给出解决方法,在看解决方法之前必须保证.ova文件在被导出之前可以正常上网。解决方法: 1、打开文件 vi /etc/udev/rules....

2017-05-03 20:50:10

阅读数 2672

评论数 1

从聚类讲到核函数

k-means聚类算法->SOM自组织神经网络->核函数

2017-04-29 09:31:38

阅读数 1865

评论数 2

BP算法——让你看清误差传播的每一步

本文通过最简单的一步步计算试着搬动BP算法这块大石头,通过发现其中的规律来更好的理解BP算法。

2017-03-14 22:22:51

阅读数 3353

评论数 0

稳健估计/M估计/最小二乘法

稳健估计是在粗差不可避免的情况下,选择适当的估计方法使未知量估计尽可能减免粗差的影响,得出正常模式下的最佳估计。本文先介绍基于最小二乘法的多元线性回归理论,再引出基于M估计的加权最小二乘估计。

2017-02-15 18:13:29

阅读数 9408

评论数 6

径向基网络(RBF)实现函数插值(拟合)

RBF神经网络最初就是是用来解决插值的问题,它可以以无限精度逼近任意连续函数。本文用matlab实现RBF神经网络,并且对不同函数的拟合效果进行比较。

2017-02-11 22:01:41

阅读数 6935

评论数 2

受限玻尔兹曼机RBM

非常详细的受限玻尔兹曼机

2017-02-07 13:14:14

阅读数 376

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭