HuFeiHu's Blog

知无涯者,虚心若愚,求知若饥,勇者天佑 !

排序:
默认
按更新时间
按访问量

EGADS学习资料

EGADS (Extendible Generic Anomaly Detection System)是Yahoo一个开源的大规模时间序列异常检测项目,主要由两个模块构成,一个是时间序列构造模块,另一个是异常检测模块。给定一段时间的离散值(构成一个序列),时间序列模块会学习这段序列的特征,并试图重...

2018-05-13 09:08:05

阅读数:36

评论数:0

Yahoo大规模时列数据异常检测技术及其高性能可伸缩架构

本文已经在InfoQ首发本文是Yahoo在ACM国际会议上发布的一篇关于时序数据自动异常检测上的学术论文,对在智能监控尤其是趋势预测、异常数据监测和报警等方面的技术同学具有一定研究和参考价值,以下是中文翻译,部分内容进行了删改,附录是该论文的英文原文,方便读者查阅。由于笔者知识有限,内容翻译不恰当...

2018-05-13 09:07:23

阅读数:80

评论数:0

Go实现海量日志收集系统

项目背景每个系统都有日志,当系统出现问题时,需要通过日志解决问题当系统机器比较少时,登陆到服务器上查看即可满足当系统机器规模巨大,登陆到机器上查看几乎不现实当然即使是机器规模不大,一个系统通常也会涉及到多种语言的开发,拿我们公司来说,底层是通过c++开发的,而也业务应用层是通过Python开发的,...

2018-04-25 08:54:26

阅读数:40

评论数:0

Apache Beam 剖析

1.概述  在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQ...

2018-04-08 22:33:41

阅读数:35

评论数:0

深入理解Apache Flink核心技术

Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRe...

2018-04-08 22:30:45

阅读数:31

评论数:0

R空间数据处理与可视化

前言很多朋友说在R里没法使用高德地图,这里给出一个基于leaflet包的解决方法。library(leaflet) # 添加高德地图 m <- leaflet() %>% addTiles( 'http://webrd0{s...

2018-04-02 18:40:28

阅读数:38

评论数:0

基于Apache Zeppelin Notebook和R的交互式数据科学

介绍这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark...

2018-04-02 18:34:55

阅读数:26

评论数:0

R语言与DataFrame

什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有...

2018-04-02 18:22:14

阅读数:8

评论数:0

数据科学工具箱: SparkR vs Sparklyr

文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初...

2018-04-02 18:05:04

阅读数:31

评论数:0

purrr鲜为人知的技巧

purrr 是一个拓展R函数式编程能力的包。它会涉及到很多东西,在这篇文章中,我会展示在purrr中最重要的(至少对我来说)几个函数。用map函数来摆脱循环library(purrr) numbers <- list(11, 12, ...

2018-03-31 22:43:31

阅读数:46

评论数:0

R语言-stringr包

stringr包常用函数总结stringr包是伟大的Hadley Wickham开发的处理字符串的程序包,该包包含的函数如下图:这篇文章我会给大家举例讲解其中的几个常用函数,如果大家想详细的了解每个函数的具体用法,可以使用帮助函数help()去查看。一、初识字符串字符串是几乎在所有编程语言中可以实...

2018-03-31 22:26:53

阅读数:62

评论数:0

R 语言--purrr包

神器purrr包是Hadley Wickham大神编写的高级函数编程语言包,它可以填充R功能性编程中的缺失部分,使得你的编程更加函数化。purrr包提供了大量的类似map的函数。可以服务于减少循环、处理嵌套数据、多模型等应用需求。map()函数library("purrr&...

2018-03-31 22:24:42

阅读数:109

评论数:0

R语言--计算各种距离

MATLAB 版本的 http://blog.csdn.net/sinat_26917383/article/details/52101425PYTHON版本的 http://book.2cto.com/201511/58274.html==============================...

2018-03-30 17:29:10

阅读数:93

评论数:0

R 语言--接收命令行参数

1 、commandArgs(),是R自带的参数传递函数,属于位置参数。args=commandArgs(T) print (args[1]) print (args[2]) print(args[3]) print(args[4])运行Rscript test.R 1 3Rscript test...

2018-03-30 10:56:52

阅读数:94

评论数:0

R语言中文社区历史文章整理(类型篇)

R包:R语言交互式绘制杭州市地图:leafletCN包简介clickpaste包介绍igraph包快速上手jiebaR,从入门到喜欢Catterplots包,让你绘制不一样的图今天再来谈谈REmap包ggplot2你需要知道的都在这...R访问数据库管理系统(通过RODBC包和RMySQL包两种方...

2018-03-30 10:20:30

阅读数:42

评论数:0

R语言中文社区历史文章整理(作者篇)

本文选取在R语言中文社区发文较多、较系统的作者整理而成,作者排名不分先后。陈丹奕:知乎大神丹奕论道数据分析师自我修养之天龙八步建模那点事儿——实战篇7个步骤,带你从零开始制作一份简单的数据报告陈老师:日报没人看,周报全白干!减少无效报表就该这么干!码数5小时,结论憋两天,分析报告结论到底该怎么下!...

2018-03-30 10:19:40

阅读数:12

评论数:0

R resources (free courses, books, tutorials, & cheat sheets)

Date: 10 August 2017Author: Paul van der Laken14 CommentsBelow is a list of free books, tutorials, packages, cheat sheets and other material to learn...

2018-03-30 10:10:37

阅读数:26

评论数:0

Ubuntu安装Rstudio

1、如果用版本控制系统,则先安装gitsudo apt-get install git2、添加用户和设置密码useradd hufeihu -m -s /bin/bashsudo passwd hufeihusu hufeihu mv rstudio-server-1.1.442-amd64.de...

2018-03-28 16:15:01

阅读数:37

评论数:0

Ubuntu 上R包安装问题汇总

Linux 上安装R包出错后一般会有以下的提示1、Ubuntu R 安装rgdal 出错apt-get install gdal-binapt-get install libxml2 apt-get install libxml2-dev apt-get install libgdal1-dev ...

2018-03-28 15:54:26

阅读数:106

评论数:0

dplyr包介绍学习

dplyr包:plyr包的替代者,专门面对数据框,将ddplyr转变为更易用的接口%>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存,可惜的是应用范围还不是很广。dplyr和data.t...

2018-03-27 11:37:22

阅读数:12

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭