大数据
文章平均质量分 80
刚是程序员
https://www.linkedin.com/in/taogang/
展开
-
用Python抓取亚马逊云(AWS)的日志(CloudTrail)数据
如今是云的时代,许多公司都把自己的IT架构部署在基础架构云(IaaS)上。著名的IaaS提供商有亚马逊,微软(Azure),IBM等,国内也有诸如阿里云等。这里亚马逊毫无疑问是该市场的领军者。AWS提供了非常多的服务,领先了竞争对手一大截。并且AWS提供非常丰富的API,其API基于Rest,所以很容易被不同的语言的平台来调用。在如今的大数据时代,利用数据在做决策是大数据的核心价值,AWS原创 2017-06-29 17:07:15 · 2330 阅读 · 1 评论 -
Spark Python 快速体验
Spark是2015年最受热捧大数据开源平台,我们花一点时间来快速体验一下Spark。Spark 技术栈如上图所示,Spark的技术栈包括了这些模块:核心模块 :Spark Core集群管理 Standalone SchedulerYARNMesosSpark SQLSpark 流 StreamingSpark原创 2017-06-29 16:59:53 · 672 阅读 · 0 评论 -
Spark 机器学习实践 :Iris数据集的分类
今天试用了一下Spark的机器学习,体验如下:第一步,导入数据我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。--packages com.databricks:spark-csv_2.11:1.4.0from pyspark.sql import SQLContextsqlCo原创 2017-06-29 16:58:34 · 2811 阅读 · 5 评论 -
大数据系统数据采集产品的架构分析
任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大,变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量原创 2017-06-29 10:36:20 · 518 阅读 · 0 评论 -
大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk
本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜索方案的时候有所帮助。简介ElasticSearch (1)(2)是一个基于Lucene的开源搜索服务。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发原创 2017-06-28 11:17:43 · 4990 阅读 · 0 评论 -
用Python实现一个大数据搜索引擎
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的数据中,那么原创 2017-11-28 09:10:37 · 742 阅读 · 0 评论