- 博客(9)
- 收藏
- 关注
转载 理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要
2016-10-29 13:08:13 285
原创 简谈各类数据库和查询语法
以下理解可能有一些错误,见谅数据库简介mongoDBNoSql非关系数据库操作上:支持正则模糊查询支持数组查询操作支持多级嵌套查询使用aggregate进行层次化的逐级函数查询某老外的点评 The reason we choose mongodb was because of its semistructured document support (json) and its cap
2016-10-15 00:21:12 471
原创 R Reproducible Research course project课程练习
原版Rmd代码在这个github地址title: “Reproducible Research: Peer Assessment 1” author: “shanesu” date: “2016年10月12日” output: html_document: keep_md: trueIntroductionThis assignment makes use of data
2016-10-13 22:48:57 652
转载 R apply、tapply、lapply、sapply、mapply、table等函数
apply函数对一个数组按行或者按列进行计算使用格式为: apply(X, MARGIN, FUN, …) 其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。 示例代码:ma <- matrix(c(1:4, 1, 6:8), nrow = 2)ma [,1] [,2] [,3] [,4]
2016-10-13 02:10:10 482
转载 R aggregate函数
这个函数的功能比较强大,它首先将数据进行分组(按行),然后对每一组数据进行函数统计,最后把结果组合成一个比较nice的表格返回。根据数据对象不同它有三种用法,分别应用于数据框(data.frame)、公式(formula)和时间序列(ts):aggregate(x, by, FUN, …, simplify = TRUE)aggregate(formula, data, FUN, …, subs
2016-10-13 01:10:32 9715
原创 R Markdown简单指南
Markdown Markdown is a text-to-HTML conversion tool for web writers. 这也是Markdown最实用的功能。但实际上,Markdown作为一种标记语言,可以让编写内容的作者更专注于内容本身。 利用简单的标记,制作出美观的,出版级的内容。Markdown的应用非常广泛,市面上很多博客也采取了这种技术。 Markdown可生成
2016-10-11 21:36:39 35883
原创 R Clustering & Dimension Reduction聚类和降维
约翰霍普金斯大学Data Science系列专项课程Exploratory Data Analysis的学习笔记
2016-10-05 00:23:21 1019
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人