2015年11月_xuguokun1986

原创 scala之reduceLeft

val tmp = （x1, x2, x3, ... xn) tmp.reduceLeft 会按照如下的步骤执行：先计算f(x1,x2) ,其中f是一个函数，这个函数是作为tmp.reduceLeft的参数传进去的然后tmp1 接着tmp1 直到tmp1 最后tmp.reduceLeft 返回tmp1

2015-11-27 13:31:46 573

转载 Scala 的 yield 例子 (for 循环和 yield 的例子)

我看了《Programming in Scala》一书，仍然对 Scala yield 关键字的理解不甚清楚。起初我以为 Scala yield 的与 Ruby 的 yield 是一样，Ruby 中 yield 是被传入代码块的占位符。Scala 中的 yield 关键字好像总是在 for 循环中用的. 下面一些例子可以帮助你更好的理解 yield 关键字。下面是摘自《Programming

2015-11-26 08:25:40 356

转载 map与flatmap区别

步骤一：将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本：步骤二：在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt步骤三：查看map函数的返回值得到map函数返回的RDD: 查看map函

2015-11-25 08:35:39 3323

转载 Spark PageRank

说明如果不考虑出度为0的节点情况，方法很easy，参考官方的code。考虑出度为0 有两个版本，V2是在V1基础上的修改完善版本,V1版本记录了各种出错记录，V2版自我感觉没有问题了。考虑出度为0的节点的具体算法可以参考data-intensive text processing with mapreduce-Graph Algorithms数据[p

2015-11-24 08:56:51 386

转载 Spark原理介绍

1、spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存，如96G以上。2、spark所有操作均基于RDD，操作主要分成2大类：transformation与action。3、spark提供了交互处理接口，类似于shell的使用。4、spark可以优化迭代工作负载，因为中间数据均保存于内存中。5、spark 是在 Sc

2015-11-23 21:09:58 364

转载 Elasticsearch之插件head的安装问题

elasticsearch-head是一个elasticsearch的集群管理工具，它是完全由html5编写的独立网页程序，你可以通过插件把它集成到es插件安装方法1：1.elasticsearch/bin/plugin -install mobz/elasticsearch-head2.运行es3.打开http://localhost:9200/_plugin/h

2015-11-18 14:44:26 5352

转载 MySql编码转化问题

MySql修改数据库编码为UTF8　mysql 创建数据库时指定编码很重要，很多开发者都使用了默认编码，乱码问题可是防不胜防。制定数据库的编码可以很大程度上避免倒入导出带来的乱码问题。　　网页数据一般采用UTF8编码，而数据库默认为latin 。我们可以通过修改数据库默认编码方式为UTF8来减少数据库创建时的设置，也能最大限度的避免因粗心造成的乱码问题。　　我们遵循的标准

2015-11-18 12:36:38 400

转载 [Elasticsearch] 集群的工作原理 - 第二部分

增加故障转移(Failover)功能只运行一个节点意味着可能存在着单点失败(Single point of failure)的问题 - 因为没有冗余。幸运的是，解决这个问题我们只需要启动另一个节点。启动第二个节点为了试验当你添加第二节点时会发生什么，你需要像启动第一个节点那样启动第二个节点(参见运行ES)，可以在同一个目录下 - 多个节点能够共享相同的目录。

2015-11-17 19:46:12 497

转载 [Elasticsearch] 集群的工作原理 - 第一部分

ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器(垂直扩展或者向上扩展，Vertical Scale/Scaling Up)，亦或是通过购置更多的服务器(水平扩展或者向外扩展，Horizontal Scale/Scaling Out)来完成。尽管ES能够利用更强劲的硬件，垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载，增加

2015-11-17 19:45:25 411

转载 ElasticSearch入门 —— 集群搭建

elasticsearch-head是一个elasticsearch的集群管理工具，它是完全由html5编写的独立网页程序，你可以通过插件把它集成到es插件安装方法1：1.elasticsearch/bin/plugin -install mobz/elasticsearch-head2.运行es3.打开http://localhost:9200/_plugin/h

2015-11-17 19:43:33 475

原创补充上一篇博客

在上一篇博客中，我是将我的字符中的时间类型赋值给了@timestamp，但是有些时候是需要保留该字段的额真实值的，所以完全可以进行下面的配置将自己转化过来的时间存储到指定的field中，配置如下：input{ file{ path => "/home/hadoop1/bms/mylog/http.log" start_position => "beginning"

2015-11-03 19:38:56 516

原创如何将操做日志中的字符串类型的时间转化成logstash中的@timestamp

目标：将操做日志中的字符串类型的时间格式转化成@timestamp环境：与上几次博客的环境一致方法：首先由于日志的格式有很多种，Logstash自带的正则表达式可能不满足我们的需求，但是我们可以通过 grok插件引入自己定义的正则表达式。具体步骤：在Logstash的安装目录下/home/hadoop1/bms/logstash-1.5.4/conf下创

2015-11-03 19:17:07 7389

转载 Logstash自带正则表达式

USERNAME [a-zA-Z0-9._-]+USER %{USERNAME}INT (?:[+-]?(?:[0-9]+))BASE10NUM (?[+-]?(?:(?:[0-9]+(?:\.[0-9]+)?)|(?:\.[0-9]+)))NUMBER (?:%{BASE10NUM})BASE16NUM (?BASE16FLOAT \b(?POSINT \b(?:

2015-11-02 18:24:18 4726 1

xuguokun1986的博客