小草君-CSDN博客

原创 Solr查询详解

这节重点是讲Solr的查询相关的知识点一、查询参数说明在做solr查询的时候，solr提供了很多参数来扩展它自身的强大功能！以下是使用频率最高的一些参数！ 1、常用 q - 查询字符串，这个是必须的。如果查询所有*:* ，根据指定字段查询（Name:张三 AND Address:北京）fq - （filter query）过虑查询，

2016-10-17 10:52:10 7772 1

转载 Java 并发工具包 java.util.concurrent 用户指南

译序本指南根据 Jakob Jenkov 最新博客翻译，请随时关注博客更新：http://tutorials.jenkov.com/java-util-concurrent/index.html。本指南已做成中英文对照阅读版的 pdf 文档，有兴趣的朋友可以去 Java并发工具包java.util.concurrent用户指南中英文对照阅读版.pdf[带书签] 进行下载。

2016-08-24 22:58:31 709 1

原创数据库检索索引之--- B 树

B树索引是一个典型的树结构，始终是平衡的，也就是说从Root节点到 Leaf 节点的任何一个路径都是等距离的。其包含的组件主要是：叶子节点（Leaf node）：包含条目直接指向表里的数据行。分支节点（Branch node）：包含的条目指向索引里其他的分支节点或者是叶子节点。根节点（Branch node）

2016-07-22 10:42:06 4925

原创《java虚拟机》汇总所有关键要点

《java虚拟机》汇总所有知识点

2016-07-17 14:05:13 1977

翻译深度解析 Twitter Heron 大数据实时分析系统

深度解析 Twitter Heron 大数据实时分析系统

2016-07-12 18:14:27 3030

原创三届（2012、2011、2009）KDD Cup内容、数据源和论文

根据腾讯微博中的用户属性（User Profile）、SNS社交关系、在社交网络中的互动记录（retweet、comment、at）等，以及过去30天内的历史item推荐记录，来预测接下来最有可能被用户接受的推荐item列表

2016-07-11 13:48:12 2740 1

原创关联规则数据挖掘算法

关联规则数据挖掘算法

2016-07-10 13:16:37 860

转载 Mahout推荐开发总结

Mahout推荐算法API详解

2016-07-09 09:38:34 2255

原创将博客搬至CSDN

将博客搬至CSDN

2016-07-08 14:58:02 333

转载 Maven类包冲突终极解决

Maven类包冲突终极解决

2016-07-08 14:38:37 7944

原创 scala spark hbase 操作案例

scala spark hbase 操作案例

2016-07-08 13:46:22 6822

转载 Apache Spark Jobs 性能调优

Apache Spark Jobs 性能调优

2016-07-06 20:15:34 1959

转载 Spark 应用程序调优

Spark 应用程序调优

2016-07-06 20:14:04 2625

原创 eclipse构建maven scala 项目编译成功

eclipse构建maven+scala+spark工程 eclipse构建maven scala 项目编译成功

2016-07-05 13:28:36 14047 1

转载 Java8 Lambda

Java8 Lambda

2016-07-03 20:34:36 427

原创 mapreduce 案例解析

mapreduce 求各个部门的人数和平均工资案例解析 http://www.tongtongxue.com/archives/2972.html

2016-07-03 18:29:52 941

转载详细探究Spark的shuffle实现和hadoop mapreduce shuffle原理

详细探究Spark的shuffle实现和hadoop mapreduce原理详细探究Spark的shuffle实现和hadoop mapreduce原理

2016-06-25 16:36:47 3923

转载 HBase深入分析之RegionServer

http://www.binospace.com/index.php/hbase-in-depth-analysis-of-the-regionserver/?utm_source=tuicool&utm_medium=referral所有的用户数据以及元数据的请求，在经过Region的定位，最终会落在RegionServer上，并由RegionServer实现数据的读写操作。

2016-06-22 23:28:00 4715

原创 Hadoop中Partition解析和 storm的grouping

解析PartitionMap的结果，会通过partition分发到Reducer上，Reducer做完Reduce操作后，通过OutputFormat，进行输出，下面我们就来分析参与这个过程的类。Mapper的结果，可能送到Combiner做合并，Combiner在系统中并没有自己的基类，而是用Reducer作为Combiner的基类，他们对外的功能是一样的，只是使用的位置和使用时

2016-06-19 14:23:03 941

转载 Storm架构分析

Storm架构分析 Storm架构分析

2016-06-18 22:45:26 919

转载 ZooKeeper原理及使用

ZooKeeper原理及使用

2016-06-15 10:10:22 732

转载 HBase -ROOT-和.META.表结构

HBase -ROOT-和.META.表结构

2016-06-14 20:10:01 4081 1

转载深入HBase架构解析

深入HBase架构解析深入HBase架构解析深入HBase架构解析深入HBase架构解析

2016-06-12 20:36:57 8171

转载 Spark架构深入剖析

Spark架构深入剖析Spark架构深入剖析

2016-06-12 11:30:53 1220

原创 Alpha、Beta、RC、GA版本说明

Alpha、Beta、RC、GA版本说明

2016-06-07 16:57:43 366

转载搭建hadoop2.6.0 HA及YARN HA

搭建hadoop2.6.0 HA及YARN HA

2016-06-06 18:01:53 658

原创使用scala实现pageRank算法

使用scala实现pageRank算法使用scala实现pageRank算法使用scala实现pageRank算法使用scala实现pageRank算法

2016-06-02 19:38:31 3002

原创使用scala实现pageRank算法

使用scala实现pageEank算法

2016-06-02 19:13:40 1712

原创 Flume 数据采集系统性能优化和关键问题汇总

Flume 性能优化和关键问题汇总 Flume 数据采集系统性能优化和关键问题汇总 Flume 数据采集系统性能优化和关键问题汇总

2016-06-01 20:02:56 13311

转载 Spark RDD API详解 Map和Reduce

转载地址： https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是

2016-05-26 19:21:56 393

转载 Spark编程指南笔记

Spark编程指南笔记本文是参考Spark官方编程指南（Spark 版本为1.2）整理出来的学习笔记，主要是用于加深对 Spark 的理解，并记录一些知识点。1. 一些概念每一个 Spark 的应用，都是由一个驱动程序构成，它运行用户的 mai

2016-05-26 18:55:25 1144

转载 hadoop 多表关联

hadoop mapreduce实现表关联，笛卡尔集。 hadoop 多表关联

2016-05-26 13:11:20 2445

原创 Flume+kafka+spark streaming+scala(sbt编译) 例子演示

Flume+kafka+spark streaming+scala(sbt编译) 例子演示原创。

2016-05-18 14:20:34 3051 3

原创 Scala中的高阶函数

文/霍斯曼Scala混合了面向对象和函数式的特性。在函数式编程语言中，函数是“头等公民”，可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。在函数式编程语言中，你只需要将明细动作包在函数当中作为参数传入即可。在本文中，你将会看到如何通过那些使用或返回函数的函数来提高我们的工作效率。作为值的函数在Scala中，函数是“头等

2016-05-08 15:02:34 1010

原创大数据和云服务领域的我的思考（拙见）

大数据和云服务领域的我的思考（拙见）

2016-05-07 19:30:37 979

转载 Spark RDD详解

RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

2016-05-07 18:23:21 2477

原创 HDFS的工作原理

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。要理解HDFS的内部工作原理，首先要理解什么是分布式文件系统。

2016-04-18 10:51:23 782

原创管理系统的权域设计

管理系统的权域设计

2016-03-27 16:53:34 916 1

转载 Hadoop2.2.0安装配置手册！完全分布式Hadoop集群搭建过程~（心血之作啊~~）

转载至： http://blog.csdn.net/licongcong_0224/article/details/12972889历时一周多，终于搭建好最新版本hadoop2.2集群，期间遇到各种问题，作为菜鸟真心被各种折磨，不过当wordcount给出结果的那一刻，兴奋的不得了~~（文当中若有错误之处或疑问欢迎指正，互相学习）PS：转载请注明来源：http://blog.csd

2015-08-27 16:20:46 637

转载分布式系统开发常见问题-1. session的复制与共享 2. 分布式缓存的设计

1. session的复制与共享在web应用中，为了应对大规模访问,必须实现应用的集群部署.要实现集群部署主要需要实现session共享机制,使得多台应用服务器之间会话统一, tomcat等多数主流web服务器都采用了session复制以及实现session的共享. 但问题还是很明显的：在节点持续增多的情况下,session复制带来的性能损失会快速增加.特别是当session中

2015-08-06 15:36:00 623