AI维基

计算智能和高性能计算

MapReduce程序的工作过程

自己对MR程序(特指Hadoop 1.x版本)的工作过程一直都不是很清楚,现在重点总结一下,为MR编程打好基础。由于MapReduce是基于HDFS的操作,因此要想深入理解MapReduce(解决的是分布式计算问题),首先得深入理解HDFS(解决的是分布式存储问题)。 一. HDFS框架组成 ...

2017-07-30 23:54:58

阅读数:177

评论数:0

基于YARN的Spark程序工作过程

一. YARN的理解 YARN是Hadoop 2.x版本的产物,它最基本的设计思想是将JobTracker的两个主要功能,即资源管理,作业调度和监控分解成为两个独立的进程。再详细介绍Spark程序工作过程前,先简单的介绍一下YARN,即Hadoop的操作系统,不仅支持MapReduce计算框架,...

2017-07-30 21:03:36

阅读数:293

评论数:0

Scala中的特质详解

Scala中的特质与Java中的接口是比较类似的,但是Scala中的特质可以同时拥有抽象方法和具体方法,而类可以实现多个特质。下面详细讲解Scala中的特质这个强大的功能。 1. 把特质当作接口使用 定义一个trait,如下所示: trait Logger { def log(msg...

2017-07-30 20:24:34

阅读数:195

评论数:0

Hadoop和Spark学习日记2

1. TF-IDF(term frequency-inverse document frequency) 解析: (1)词频(TF)=某个词在文章中出现的次数/文章的总词数。 (2)逆文档频率(IDF)=log(语料库的文档总数/(包含该词的文档数+1))。 (3)词频-逆文档频率(T...

2017-07-27 21:06:57

阅读数:200

评论数:0

Maven和SBT学习日记1

1. Maven常用命令 (1)创建Maven的Java项目 mvn archetype:generate -DgroupId={project-packaging} -DartifactId={project-name}-DarchetypeArtifactId=maven-archetype-...

2017-07-26 23:25:33

阅读数:144

评论数:0

Java和Scala学习日记1

1. Scala数据类型 (1)Byte:8位有符号补码整数。数值区间为-128到127。 (2)Short:16位有符号补码整数。数值区间为-32768到32767。 (3)Int:32位有符号补码整数。数值区间为-2147483648到2147483647。 (4)Long:64位有符...

2017-07-26 23:15:42

阅读数:464

评论数:0

Hadoop和Spark学习日记1

1. Mahout 解析: (1)Collaborative Filtering (2)Classification (3)Clustering (4)Dimensionality Reduction (5)Topic Models 2. k-Means 解析: bin/...

2017-07-25 17:53:04

阅读数:270

评论数:0

自然语言处理学习日记1

1. Stanford CoreNLP 解析:tokenize,cleanxml,ssplit,pos,lemma,ner,regexner,sentiment,truecase,parse,depparse,dcoref,relation,natlog,quote。   2. NLTK(N...

2017-07-25 17:12:22

阅读数:1265

评论数:0

基于CentOS的Hadoop和Spark分布式集群搭建过程

1. 软件版本,IP地址,修改主机名和hosts文件 (1)软件版本:CentOS 7.0;JDK 8u141;Hadoop 2.7.3;Scala 2.11.8;Spark 2.2.0。 (2)IP地址:192.168.106.128(主节点);192.168.106.129(从节点);192....

2017-07-23 10:17:13

阅读数:344

评论数:0

TensorFlow学习日记7

1. tf.layers.average_pooling3d 解析:average_pooling3d(inputs, pool_size, strides, padding='valid', data_format='channels_last',name=None): Average pool...

2017-07-21 12:51:20

阅读数:376

评论数:0

Git学习日记3

1. git fetch [remote-name] 解析:从远程仓库中拉取所有本地仓库中没有的数据,然后可以在本地访问远程仓库中的所有分支,可将其中某个分支合并到本地。  说明:git fetch origin master:temp:从远程的origin仓库的master分支下载到本地并新...

2017-07-20 11:29:42

阅读数:252

评论数:0

TensorFlow学习日记6

1. tf.test.main 解析:main(argv=None):Runs all unit tests. 2. tf.test.TestCase 解析: import tensorflow as tf class SquareTest(tf.test.TestCase): ...

2017-07-19 16:48:11

阅读数:3976

评论数:0

TensorFlow学习日记5

1. TensorFlow可视化 TensorFlow的工作方式是启动一个Web服务,该服务进程从TensorFlow程序执行所得的事件日志文件(event files) 中读取概要(summary)数据,然后将数据在网页中绘制成可视化的图标。概要数据包括几种类别,如下所示: (1)标量数据:比如...

2017-07-18 23:46:19

阅读数:767

评论数:0

Python与机器学习4

1. SMOTE过采样算法 解析:SMOTE算法思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本 b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。  2. DBSCAN 解析:DBSCAN(Density-Based Spatial Clus...

2017-07-17 21:25:58

阅读数:202

评论数:0

TensorFlow学习日记4

1. RNN结构 解析: (1)one to one表示单输入单输出网络。这里的但输入并非表示网络的输入向量长度为1,而是指数据的长度是确定 的。比如输入数据可以是一个固定类型的数,可以是一个固定长度的向量,或是一个固定大小的图片。同理,模型输 出规模也是确定的。传统神经网络和CNN都可以理解为是...

2017-07-17 16:30:03

阅读数:6836

评论数:0

TensorFlow学习日记3

1. tf.reduce_prod 解析:Computes the product of elements across dimensions of a tensor. 2. tf.reduce_sum 解析:Computes the sum of elements across dimens...

2017-07-12 00:11:28

阅读数:687

评论数:0

TensorFlow学习日记2

1. tf.app.run() 解析:TensorFlow提供的一个主程序入口,tf.app.run()会调用定义的main函数。 2. tf.group 3. tf.control_dependencies 4. tf.no_op 5. tf.cast 6. tf.get_v...

2017-07-09 18:33:26

阅读数:285

评论数:0

提示
确定要删除当前文章?
取消 删除