2014年08月_蓝天的IT生涯

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 HADOOP 查看目录下数据大小的方法

shell命令： hadoop fs -count -q 目录 ps：查看目录下总的大小

2014-08-27 11:20:07 21962

原创 Spark Streaming源码学习总结(一)

1.Spark Streaming 代码分析：1.1 示例代码DEMO：实时计算的WorldCount： import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ import org.

2014-08-23 23:11:14 4873 1

转载 Spark Streaming实时计算框架介绍

随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互试查询应用。本文将详细介绍 Spark Streaming 实时计算框架的原理与特点、适用

2014-08-23 17:34:35 1223

原创我整理的IDEA 快捷键

IDEA 快捷键：查看子类实现方法的快捷键你： ctrl+alt+

2014-08-20 10:06:46 4098

转载搭建高可用mongodb集群（二）—— 副本集

主节点挂了能否自动切换连接？目前需要手工切换。主节点的读写压力过大如何解决？从节点每个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？数据压力大到机器支撑不了的时候能否做到自动扩展？这篇文章看完这些问题就可以搞定了。NoSQL的产生就是为了解决大数据量、高扩展性、高性能、灵活数据模型、高可用性。但是光通过主从模式的架构远远达不到上面几点，由此MongoDB设计了副本集和分片的功能。这篇文

2014-08-18 17:31:56 1081

转载搭建高可用mongodb集群（一）——配置mongodb

在大数据的时代，传统的关系型数据库要能更高的服务必须要解决高并发读写、海量数据高效存储、高可扩展性和高可用性这些难题。不过就是因为这些问题Nosql诞生了。NOSQL有这些优势：大数据量，可以通过廉价服务器存储大量的数据，轻松摆脱传统mysql单表存储量级限制。高扩展性，Nosql去掉了关系数据库的关系型特性，很容易横向扩展，摆脱了以往老是纵向扩展的诟病。高性能，Nosql通过

2014-08-18 17:27:54 694

转载 Spark Streaming实例分析

Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接监听端口:地址val lines = ssc.socketTextStream(serverIP, serverPort);// 对每一行数据执行Split操作val words = lines.flatMap(

2014-08-14 09:28:27 2129

转载取消屏幕旋转快捷键

123456分步阅读平时会用到“ctr +alt + 方向键”快捷键，结果每次都是电脑屏幕各种旋转啊，关掉了所有的软件，但是无效，后来终于找到了问题根源。工具/原料电脑方法/步骤

2014-08-12 09:57:39 1305

转载 Idea 快捷键

公司里面java开发的不是用主流的eclipse，而是用了一个商业的IDE,IntelliJ IDEA，这个IDE网上资料挺少的，为了熟悉这个开发环境，在网上东凑西凑找了一些常用的快捷键，方便开发。想到日后也许有人跟我一样在找这些快捷键，所以先把我收集到的这些快捷键共享一下吧。目前只收集了如下的常用快捷键。ctrl+alt+← 回退到之前光标所在位置ctrl+w

2014-08-12 09:41:50 662

转载 Spark Streaming：大规模流式数据处理的新贵

摘要：Spark Streaming是大规模流式数据处理的新贵，将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型，并结合实践对其核心技术进行了深入的剖析，给出了具体的应用场景及优化方案。提到Spark Streaming，我们不得不说一下BDAS（Berkeley Data Analytics Stack），这个伯克利大学提出的关于数据分析的

2014-08-11 12:59:24 1038

转载五个解决方案让MongoDB拥有RDBMS的鲁棒性事务

事务问题数据库支持数据块间的事务是有原因的。典型的场景是应用需要修改几个独立的比特时，如果只有一些而不是全部改变存储到了数据库，那么这就会出现不一致问题。因此ACID的概念是：原子性：所有的改变要么都做了，要么都没做一致性：数据保持一致性状态隔离性：其它用户看不到部分改变持久性：一旦向用户确认了事务，数据就处于安全的状态（通常存在硬盘上）引入NoSQL数据库

2014-08-10 21:42:34 597

转载 Spark学习笔记(三)-RDD(弹性分布式数据集)

RDD是一些对象的只读集合, 被划分到多台机器上, 并且在某个划分块丢失之后可以重建. 用户可以显式的把RDD缓存在内存中, 方便在类似于Map-Reduce的并发操作中重用, 这也是为什么Spark比较适合处理迭代式Job的原因. RDD通过"血统"(lineage)的概念来保证容错性, 当RDD的一个划分块丢失之后, 该RDD知道怎样从其他的RDD中重建该划分块. RDD中的元素不需要被存

2014-08-05 22:40:18 2205

原创机器学习算法基础概念学习总结

1.基础概念：(1) 10折交叉验证：英文名是10-fold cross-validation，用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据，1分作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证，在求其平均值，对算法的准确性进行估计。

2014-08-01 11:13:05 6607 1

Apriori算法是我的第一个数据挖掘算法，算处女作吧，哈哈哈。在这之前我对数据挖掘算法恐惧，觉得太难了，只是大致看了下原理，然后在clementine上拖几个控件跑下demo，运行的结果很好但是总觉得技术含量不高，我不知道为什么要这么做，为什么那些参数要那么设置，更糟糕的是发现那些算法过一段时间都忘记了。没办法，不入虎穴焉得虎子，我逼迫自己根据书上提供的讲解和伪码，琢磨着用什么数据结构保存数据？

2014-08-01 09:31:12 2436 1