自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (3)
  • 问答 (5)
  • 收藏
  • 关注

原创 HADOOP 查看目录下数据大小的方法

shell命令: hadoop fs -count -q  目录       ps: 查看目录下总的大小

2014-08-27 11:20:07 21962

原创 Spark Streaming源码学习总结(一)

1.Spark Streaming 代码分析:1.1 示例代码DEMO:实时计算的WorldCount: import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.

2014-08-23 23:11:14 4873 1

转载 Spark Streaming实时计算框架介绍

随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。 本文将详细介绍 Spark Streaming 实时计算框架的原理与特点、适用

2014-08-23 17:34:35 1223

原创 我整理的IDEA 快捷键

IDEA 快捷键:查看子类实现方法的快捷键你: ctrl+alt+

2014-08-20 10:06:46 4098

转载 搭建高可用mongodb集群(二)—— 副本集

主节点挂了能否自动切换连接?目前需要手工切换。主节点的读写压力过大如何解决?从节点每个上面的数据都是对数据库全量拷贝,从节点压力会不会过大?数据压力大到机器支撑不了的时候能否做到自动扩展?这篇文章看完这些问题就可以搞定了。NoSQL的产生就是为了解决大数据量、高扩展性、高性能、灵活数据模型、高可用性。但是光通过主从模式的架构远远达不到上面几点,由此MongoDB设计了副本集和分片的功能。这篇文

2014-08-18 17:31:56 1081

转载 搭建高可用mongodb集群(一)——配置mongodb

在大数据的时代,传统的关系型数据库要能更高的服务必须要解决高并发读写、海量数据高效存储、高可扩展性和高可用性这些难题。不过就是因为这些问题Nosql诞生了。NOSQL有这些优势:大数据量,可以通过廉价服务器存储大量的数据,轻松摆脱传统mysql单表存储量级限制。高扩展性,Nosql去掉了关系数据库的关系型特性,很容易横向扩展,摆脱了以往老是纵向扩展的诟病。高性能,Nosql通过

2014-08-18 17:27:54 694

转载 Spark Streaming实例分析

Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接 监听端口:地址val lines = ssc.socketTextStream(serverIP, serverPort);// 对每一行数据执行Split操作val words = lines.flatMap(

2014-08-14 09:28:27 2129

转载 取消屏幕旋转快捷键

123456分步阅读平时会用到“ctr +alt + 方向键”快捷键,结果每次都是电脑屏幕各种旋转啊,关掉了所有的软件,但是无效,后来终于找到了问题根源。工具/原料电脑方法/步骤

2014-08-12 09:57:39 1305

转载 Idea 快捷键

公司里面java开发的不是用主流的eclipse,而是用了一个商业的IDE,IntelliJ IDEA,这个IDE网上资料挺少的,为了熟悉这个开发环境,在网上东凑西凑找了一些常用的快捷键,方便开发。想到日后也许有人跟我一样在找这些快捷键,所以先把我收集到的这些快捷键共享一下吧。 目前只收集了如下的常用快捷键。ctrl+alt+←   回退到之前光标所在位置ctrl+w 

2014-08-12 09:41:50 662

转载 Spark Streaming:大规模流式数据处理的新贵

摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的

2014-08-11 12:59:24 1038

转载 五个解决方案让MongoDB拥有RDBMS的鲁棒性事务

事务问题数据库支持数据块间的事务是有原因的。典型的场景是应用需要修改几个独立的比特时,如果只有一些而不是全部改变存储到了数据库,那么这就会出现不一致问题。因此ACID的概念是:原子性:所有的改变要么都做了,要么都没做一致性:数据保持一致性状态隔离性:其它用户看不到部分改变持久性:一旦向用户确认了事务,数据就处于安全的状态(通常存在硬盘上)引入NoSQL数据库

2014-08-10 21:42:34 597

转载 Spark学习笔记(三)-RDD(弹性分布式数据集)

RDD是一些对象的只读集合, 被划分到多台机器上, 并且在某个划分块丢失之后可以重建. 用户可以显式的把RDD缓存在内存中, 方便在类似于Map-Reduce的并发操作中重用, 这也是为什么Spark比较适合处理迭代式Job的原因. RDD通过"血统"(lineage)的概念来保证容错性, 当RDD的一个划分块丢失之后, 该RDD知道怎样从其他的RDD中重建该划分块. RDD中的元素不需要被存

2014-08-05 22:40:18 2205

原创 机器学习算法基础概念学习总结

1.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。

2014-08-01 11:13:05 6607 1

转载 Apriori算法

Apriori算法是我的第一个数据挖掘算法,算处女作吧,哈哈哈。在这之前我对数据挖掘算法恐惧,觉得太难了,只是大致看了下原理,然后在clementine上拖几个控件跑下demo,运行的结果很好但是总觉得技术含量不高,我不知道为什么要这么做,为什么那些参数要那么设置,更糟糕的是发现那些算法过一段时间都忘记了。没办法,不入虎穴焉得虎子,我逼迫自己根据书上提供的讲解和伪码,琢磨着用什么数据结构保存数据?

2014-08-01 09:31:12 2436 1

Netty Demo

一个Netty的使用demo,可以帮助你更好的了解Netty的使用,对netty有更加清晰的了解。下载即可运行

2013-04-20

Mina 使用DEMO

一个简单的mina运行DEMO,可以帮助你更好的使用Mina以及了解Mina

2013-04-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除