2016年10月_shanesu

转载理解Spark的核心RDD

与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象（Unified Programming Abstraction）。这正是Spark这朵小火花让人着迷的地方。要

2016-10-29 13:08:13 285

原创简谈各类数据库和查询语法

以下理解可能有一些错误，见谅数据库简介mongoDBNoSql非关系数据库操作上：支持正则模糊查询支持数组查询操作支持多级嵌套查询使用aggregate进行层次化的逐级函数查询某老外的点评 The reason we choose mongodb was because of its semistructured document support (json) and its cap

2016-10-15 00:21:12 471

原创 R Reproducible Research course project课程练习

原版Rmd代码在这个github地址title: “Reproducible Research: Peer Assessment 1” author: “shanesu” date: “2016年10月12日” output: html_document: keep_md: trueIntroductionThis assignment makes use of data

2016-10-13 22:48:57 652

转载 R apply、tapply、lapply、sapply、mapply、table等函数

apply函数对一个数组按行或者按列进行计算使用格式为： apply(X, MARGIN, FUN, …) 其中X为一个数组；MARGIN为一个向量（表示要将函数FUN应用到X的行还是列），若为1表示取行，为2表示取列，为c(1,2)表示行、列都计算。示例代码：ma <- matrix(c(1:4, 1, 6:8), nrow = 2)ma [,1] [,2] [,3] [,4]

2016-10-13 02:10:10 482

转载 R aggregate函数

这个函数的功能比较强大，它首先将数据进行分组（按行），然后对每一组数据进行函数统计，最后把结果组合成一个比较nice的表格返回。根据数据对象不同它有三种用法，分别应用于数据框（data.frame）、公式（formula）和时间序列（ts）：aggregate(x, by, FUN, …, simplify = TRUE)aggregate(formula, data, FUN, …, subs

2016-10-13 01:10:32 9715

原创 R Markdown简单指南

Markdown Markdown is a text-to-HTML conversion tool for web writers. 这也是Markdown最实用的功能。但实际上，Markdown作为一种标记语言，可以让编写内容的作者更专注于内容本身。利用简单的标记，制作出美观的，出版级的内容。Markdown的应用非常广泛，市面上很多博客也采取了这种技术。 Markdown可生成

2016-10-11 21:36:39 35883