Filebeat的架构分析、配置解释与示例

filebeat是beats工具中的一种,都是用来收集日志文件的,作为监听,可以通过配置随时将结果映射到Elasticsearch,logstash,file或者console(只能配置一种),本篇博客将通过架构解析,配置案例和filebeat+elk的demo...
阅读(9883) 评论(7)

linux 部署ELK 日志分析系统与简单测试

ELK stack是指由Elasticsearch,Logstash,Kibana三个组件结合起来而构成的一个日志收集,分析,可视化,本篇博客致力于教你配置elk环境与简单的“helloworld”测试...
阅读(4969) 评论(1)

《hadoop进阶》基于hadoop和hive的微博热词跟踪系统

利用hadoop来做一个类似于微博热词的系统,涉及到了中文分词,hadoop的mr计算,hive创建分区表,以及jfreechart的可视化,欢迎吐槽...
阅读(1242) 评论(0)

hadoop提交jar包卡住不会往下执行的解决方案

这是一个很蛋疼的问题,说实话在以前玩这个hadoop集群,不管是伪分布式还是集群都没有注意过分配内存这个问题,即job执行时的内存分配,然后在今天遇到了,搞了好久错误描...
阅读(1471) 评论(1)

基于python impyla的hive客户端

impyla,基于thrift,利用python和hive进行交互...
阅读(2838) 评论(3)

HIVE一些小技巧和java操作hive

转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer1.写在前边的话        自己电脑上部署的hive版本是hive1.1.1,在终端执行hive 命令时,凡是涉及where语句时,就会出现异常退出,对于一个开发者怎么能忍受这种情...
阅读(1898) 评论(0)

针对Hadoop YARN 的REST API web服务介绍

目录...
阅读(1803) 评论(0)

Spark RDD编程(二)

RDD的分区函数 | RDD的基本转换操作 | repartition 和 coalesce | randomSplit和glom | mapPartitions和mapPartitionsWithIndex | zip和zipPartitions | zipWithIndex和zinWithUniqueId | 控制操作 | 行动操作...
阅读(2549) 评论(2)

我所理解的REST API

对于REST API的介绍和分析已经有很多文章了,我相信他们写的都很好,那么为什么我还要写这篇博客呢,因为我看了挺多资料之后对REST API这个东西还是一知半解,什么是REST?什么是API?这个我理解了,但是一合起来,我就有点蒙圈了,下边谈谈我的理解吧...
阅读(1392) 评论(3)

10.Django细节性知识点回顾(二)

django的细节知识点回顾,你会在这里看到很多容易忽略的细节性知识...
阅读(1127) 评论(0)

使用python的hdfs包操作分布式文件系统(HDFS)

使用python的hdfs包操作HDFS文件系统,实例+参数的详细说明,参考官网资料整理的一篇博客...
阅读(6291) 评论(3)

数据库的方向 - 行vs列

如果你是一位数据库专家的话,这篇博客可能帮不了你什么。 如果你是一位IT人士,但对数据库技术只知其然的话,这篇博客会很适合你。 如果你是非IT人士,又或者你是我的家人,谢谢你们的阅读,但是显然你应该去寻求更适合你的阅读材料。 如此,可能会对此话题感兴趣的朋友已经减少了。看来你应该是这样一个人,你是非数据库领域的IT专家,但是你深知数据库的重要性,你可能非常想更多的了解一些当前IT界正在热烈讨论的数据库热门话题。 我可以很坦率的告诉大家,虽然我在IBM i的很多个部门工作过,但是我并不是一个DB2的开发人员。...
阅读(706) 评论(0)

Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

hadoop十年的发展从1.x到2.x的演变,可谓发生了巨大的变化,不管是架构还是资源调度都是经历彻彻底底的改变,本篇博客着重介绍hadoop从1.x到2.x的单点故障的解决过程,和对应的解决办法...
阅读(1369) 评论(0)

三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)

之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。...
阅读(3310) 评论(0)

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看...
阅读(3791) 评论(4)

基于Spark和Hive进行的豆瓣电影数据分析

自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容...
阅读(4600) 评论(9)

关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

写在前边的话:         同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢?         本来是想在基于豆瓣电影数据进行相关的数据分析项目      中进行相关解释说明的,仔细想了下,刚好拿出来,对hive的三个复杂数据类型做一个总结性的学习...
阅读(4885) 评论(0)

IDEA构建Spark编程环境和用Scala实现PageRank算法

Idea 搭建Spark开发环境,并测试运行SparkPI示例,Shell脚本运行PageRank算法,打包在Spark集群上运行...
阅读(1324) 评论(0)

09.Apache 2.4 基于端口配置多个Diango项目

写在前边的话:        基于多端口配置普通的web项目是非常简单的,大家上网搜索就能得到很多答案,而且不会出错,然而在配置Django的多端口时,却出现了各种bug,苦苦的折腾了一晚上        环境 说明:              服务器 Windows Server 2008              Apache 2.4.4              Python 2....
阅读(1239) 评论(0)

带你走进Spark编程之Scala入门

1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子 2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 Scala中的类详解...
阅读(2260) 评论(0)
234条 共12页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:636160次
    • 积分:8376
    • 等级:
    • 排名:第2255名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:221条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论