2018年03月_chenyulancn

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载在 Java 应用程序中加一些 Groovy 进来

如果您一直在阅读这个系列，那么您应该已经看到有各种各样使用 Groovy 的有趣方式，Groovy 的主要优势之一就是它的生产力。Groovy 代码通常要比 Java 代码更容易编写，而且编写起来也更快，这使得它有足够的资格成为开发工作包中的一个附件。在另一方面，正如我在这个系列中反复强调的那样，Groovy 并不是 —— 而且也不打算成为 —— Java 语言的替代。所以，这里存在的问题是，能否...

2018-03-23 20:00:38 242

转载 JAVA嵌入运行Groovy脚本

最近设计一个数据统计系统,系统中上百种数据统计维度,而且这些数据统计的指标可能随时会调整.如果基于java编码的方式逐个实现数据统计的API设计,工作量大而且维护起来成本较高;最终确定为将"数据统计"的计算部分单独分离成脚本文件(javascript,或者Groovy),非常便捷了实现了"数据统计Task" 与 "数据统计规则(计算)"解耦,且可以动态的加载和运行的能力.顺便对JAVA嵌入运行G...

2018-03-23 19:56:32 3300 1

转载理解RESTful架构

越来越多的人开始意识到，网站即软件，而且是一种新型的软件。这种”互联网软件”采用客户端/服务器模式，建立在分布式体系上，通过互联网通信，具有高延时（high latency）、高并发等特点。网站开发，完全可以采用软件开发的模式。但是传统上，软件和网络是两个不同的领域，很少有交集；软件开发主要针对单机环境，网络则主要研究系统之间的通信。互联网的兴起，使得这两个领域开始融合，现在我们必须考虑，如何...

2018-03-20 21:54:17 235

转载 HDFS的运行原理

简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合大数据的处理。多大？多...

2018-03-12 09:04:39 217

原创阿里云上部署kafka，远程无法访问问题

阿里云上部署kafka后，远程总是无法访问，本地机器可以。确定是网络配置的问题，所以在server.properties 做如下修改：host.name=阿里云内网地址 #kafka绑定的interfaceadvertised.listeners=PLAINTEXT://阿里云外网映射地址:9092 # 注册到zookeeper的地址和端口...

2018-03-09 16:38:45 6922 3

转载 Swagger

1、swagger学习Swagger定义Swagger同类工具Swagger和web项目结合Swagger在公司项目中如何应用2、Swagger定义Swagger官网：http://swagger.ioGitHub地址：https://github.com/swagger-api官方注解文档：http://docs.swagger.io/swagger-core/apidocs/index.htm...

2018-03-08 17:21:15 1215

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目...

2018-03-08 10:32:42 476

转载深入理解shard

索引存储的时候会分为shard，这样可以提高读写性能，并可以实现负载均衡。索引不变性索引一旦被创建，就不可改变。动态索引如何在保持不可变好处（顺序写、缓存在内存）的同时更新倒排索引，不是重写整个倒排索引，而是增加额外的索引反映最近的变化。elasticsearch索引组成索引组成.pngLucene引入了per-segment search，每个segment就是一个倒排索引，但是Elastics...

2018-03-08 10:07:14 5180

转载 Apache Kylin 深入Cube和查询优化

摘要在Apache Kylin超高性能的背后，Cube是至关重要的核心。一个优化得当的Cube既能满足高速查询的需要，又能节省集群资源。本文将从多个方面入手，介绍如何通过优化Cube提升系统性能。近几年，Apache Kylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势，通过对超大规模数据集进行预计算，实现秒级甚至亚秒级的查询响应...

2018-03-07 21:12:52 918

转载 presto是什么

presto是什么是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动态编译执⾏计划，优化的ORC和Parquet Reader等presto不太支持存储过程，支持部分标准sql...

2018-03-07 17:24:21 10119

转载一个Spark缓存的使用示例

之前一直不是非常理解Spark的缓存应该如何使用今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果.关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明.注：因为使用的是内部数据文件, 在这边就不公布出...

2018-03-07 16:39:42 1609

转载 KafkaStreams–架构

说明：本文转载地址：http://blog.csdn.net/ransom0512/article/details/52105379 本文对原翻译进行了补充，加上了自己的理解。本文是Confluent Platform 3.0版本中对于Kafka Streams的翻译。原文地址：https://docs.confluent.io/3.0.0/streams/index.html 看了很多其他人...

2018-03-07 14:33:02 572

转载 Spark Streaming vs. Kafka Stream 哪个更适合你

原文：Spark Streaming vs. Kafka Stream 作者：Mahesh Chand Kandpal 翻译：雁惊寒译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加，仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理...

2018-03-07 14:30:23 1421

转载《Kafka Stream》调研：一种轻量级流计算模式

摘要：流计算，已经有Storm、Spark，Samza，包括最近新起的Flink，Kafka为什么再自己做一套流计算呢？Kafka Stream 与这些框架比有什么优势？Samza、Consumer Group已经包装了Kafka轻量级的消费功能，难道不够吗？花了一些时间阅读[docs](httpConfluent Inc（原LinkedIn Kafka作者离职后创业公司）在6月份预告推出Ka...

2018-03-07 14:26:01 786 1

转载用Kafka实时复制PostgreSQL里的最新数据

转载来自： http://blog.confluent.io/2015/04/23/bottled-water-real-time-integration-of-postgresql-and-kafka/Summary: Confluent is starting to explore the integration of databases with event streams. As part...

2018-03-07 14:01:00 3032

转载 Bottled Water: 实时集成postgresql与kafka

摘要: Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water简介Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water可以实时地将postgresql的变化推送至kafka中。有以下几个主要特性...

2018-03-07 13:58:27 2525

转载基于Python的Spark Streaming+Kafka编程实践及调优总结

说明Spark Streaming的原理说明的文章很多，这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.htmlstreaming-kafka-integration:http://spark.apac...

2018-03-02 10:58:04 2062

转载 kafka+spark streaming代码实例(pyspark+python)

一、系统准备1.启动zookeeper：bin/zkServer.cmd start2.启动kafka：bin/kafka-server-start.sh -daemon config/server.properties3.启动spark：sbin/start-all.sh数据来源：http://files.grouplens.org/datasets/movielens/ml-100k.zip ...

2018-03-02 10:42:31 11030 3