HuFeiHu's Blog

知无涯者,虚心若愚,求知若饥,勇者天佑 !

Go实现海量日志收集系统

项目背景每个系统都有日志,当系统出现问题时,需要通过日志解决问题当系统机器比较少时,登陆到服务器上查看即可满足当系统机器规模巨大,登陆到机器上查看几乎不现实当然即使是机器规模不大,一个系统通常也会涉及到多种语言的开发,拿我们公司来说,底层是通过c++开发的,而也业务应用层是通过Python开发的,...

2018-04-25 08:54:26

阅读数:543

评论数:0

Apache Beam 剖析

1.概述  在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQ...

2018-04-08 22:33:41

阅读数:132

评论数:0

深入理解Apache Flink核心技术

Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRe...

2018-04-08 22:30:45

阅读数:122

评论数:0

R空间数据处理与可视化

前言很多朋友说在R里没法使用高德地图,这里给出一个基于leaflet包的解决方法。library(leaflet) # 添加高德地图 m <- leaflet() %>% addTiles( 'http://webrd0{s...

2018-04-02 18:40:28

阅读数:259

评论数:0

基于Apache Zeppelin Notebook和R的交互式数据科学

介绍这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark...

2018-04-02 18:34:55

阅读数:81

评论数:0

R语言与DataFrame

什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有...

2018-04-02 18:22:14

阅读数:75

评论数:0

数据科学工具箱: SparkR vs Sparklyr

文章转载自:https://segmentfault.com/a/1190000013806395背景介绍SparkR 和 Sparklyr 是两个基于Spark的R语言接口,通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护,通过源码级别更新SparkR的最新功能,最初...

2018-04-02 18:05:04

阅读数:109

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭