- 博客(13)
- 资源 (3)
- 收藏
- 关注
原创 scala之reduceLeft
val tmp = (x1, x2, x3, ... xn) tmp.reduceLeft 会按照如下的步骤执行:先计算f(x1,x2) ,其中f是一个函数,这个函数是作为tmp.reduceLeft的参数传进去的然后tmp1 接着tmp1 直到tmp1 最后tmp.reduceLeft 返回tmp1
2015-11-27 13:31:46 573
转载 Scala 的 yield 例子 (for 循环和 yield 的例子)
我看了《Programming in Scala》一书,仍然对 Scala yield 关键字的理解不甚清楚。起初我以为 Scala yield 的与 Ruby 的 yield 是一样,Ruby 中 yield 是被传入代码块的占位符。Scala 中的 yield 关键字好像总是在 for 循环中用的. 下面一些例子可以帮助你更好的理解 yield 关键字。下面是摘自 《Programming
2015-11-26 08:25:40 356
转载 map与flatmap区别
步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt步骤三:查看map函数的返回值得到map函数返回的RDD: 查看map函
2015-11-25 08:35:39 3323
转载 Spark PageRank
说明如果不考虑出度为0的节点情况,方法很easy,参考官方的code。考虑出度为0 有两个版本,V2是在V1基础上的修改完善版本,V1版本记录了各种出错记录,V2版自我感觉没有问题了。考虑出度为0的节点的具体算法可以参考data-intensive text processing with mapreduce-Graph Algorithms数据[p
2015-11-24 08:56:51 386
转载 Spark原理介绍
1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。2、spark所有操作均基于RDD,操作主要分成2大类:transformation与action。3、spark提供了交互处理接口,类似于shell的使用。4、spark可以优化迭代工作负载,因为中间数据均保存于内存中。5、spark 是在 Sc
2015-11-23 21:09:58 364
转载 Elasticsearch之插件head的安装问题
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es插件安装方法1:1.elasticsearch/bin/plugin -install mobz/elasticsearch-head2.运行es3.打开http://localhost:9200/_plugin/h
2015-11-18 14:44:26 5352
转载 MySql编码转化问题
MySql修改数据库编码为UTF8 mysql 创建 数据库时指定编码很重要,很多开发者都使用了默认编码,乱码问题可是防不胜防。制定数据库的编码可以很大程度上避免倒入导出带来的乱码问题。 网页数据一般采用UTF8编码,而数据库默认为latin 。我们可以通过修改数据库默认编码方式为UTF8来减少数据库创建时的设置,也能最大限度的避免因粗心造成的乱码问题。 我们遵循的标准
2015-11-18 12:36:38 400
转载 [Elasticsearch] 集群的工作原理 - 第二部分
增加故障转移(Failover)功能只运行一个节点意味着可能存在着单点失败(Single point of failure)的问题 - 因为没有冗余。幸运的是,解决这个问题我们只需要启动另一个节点。启动第二个节点为了试验当你添加第二节点时会发生什么,你需要像启动第一个节点那样启动第二个节点(参见运行ES),可以在同一个目录下 - 多个节点能够共享相同的目录。
2015-11-17 19:46:12 497
转载 [Elasticsearch] 集群的工作原理 - 第一部分
ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器(垂直扩展或者向上扩展,Vertical Scale/Scaling Up),亦或是通过购置更多的服务器(水平扩展或者向外扩展,Horizontal Scale/Scaling Out)来完成。尽管ES能够利用更强劲的硬件,垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载,增加
2015-11-17 19:45:25 411
转载 ElasticSearch入门 —— 集群搭建
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es插件安装方法1:1.elasticsearch/bin/plugin -install mobz/elasticsearch-head2.运行es3.打开http://localhost:9200/_plugin/h
2015-11-17 19:43:33 475
原创 补充上一篇博客
在上一篇博客中,我是将我的字符中的时间类型赋值给了@timestamp,但是有些时候是需要保留该字段的额真实值的,所以完全可以进行下面的配置将自己转化过来的时间存储到指定的field中,配置如下:input{ file{ path => "/home/hadoop1/bms/mylog/http.log" start_position => "beginning"
2015-11-03 19:38:56 516
原创 如何将操做日志中的字符串类型的时间转化成logstash中的@timestamp
目标:将操做日志中的字符串类型的时间格式转化成@timestamp环境:与上几次博客的环境一致方法:首先由于日志的格式有很多种,Logstash自带的正则表达式可能不满足我们的需求,但是我们可以通过 grok插件引入自己定义的正则表达式。具体步骤:在Logstash的安装目录下/home/hadoop1/bms/logstash-1.5.4/conf下创
2015-11-03 19:17:07 7389
转载 Logstash自带正则表达式
USERNAME [a-zA-Z0-9._-]+USER %{USERNAME}INT (?:[+-]?(?:[0-9]+))BASE10NUM (?[+-]?(?:(?:[0-9]+(?:\.[0-9]+)?)|(?:\.[0-9]+)))NUMBER (?:%{BASE10NUM})BASE16NUM (?BASE16FLOAT \b(?POSINT \b(?:
2015-11-02 18:24:18 4726 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人