- 博客(18)
- 资源 (88)
- 收藏
- 关注
转载 在 Java 应用程序中加一些 Groovy 进来
如果您一直在阅读这个系列,那么您应该已经看到有各种各样使用 Groovy 的有趣方式,Groovy 的主要优势之一就是它的生产力。Groovy 代码通常要比 Java 代码更容易编写,而且编写起来也更快,这使得它有足够的资格成为开发工作包中的一个附件。在另一方面,正如我在这个系列中反复强调的那样,Groovy 并不是 —— 而且也不打算成为 —— Java 语言的替代。所以,这里存在的问题是,能否...
2018-03-23 20:00:38 242
转载 JAVA嵌入运行Groovy脚本
最近设计一个数据统计系统,系统中上百种数据统计维度,而且这些数据统计的指标可能随时会调整.如果基于java编码的方式逐个实现数据统计的API设计,工作量大而且维护起来成本较高;最终确定为将"数据统计"的计算部分单独分离成脚本文件(javascript,或者Groovy),非常便捷了实现了"数据统计Task" 与 "数据统计规则(计算)"解耦,且可以动态的加载和运行的能力.顺便对JAVA嵌入运行G...
2018-03-23 19:56:32 3300 1
转载 理解RESTful架构
越来越多的人开始意识到,网站即软件,而且是一种新型的软件。 这种”互联网软件”采用客户端/服务器模式,建立在分布式体系上,通过互联网通信,具有高延时(high latency)、高并发等特点。 网站开发,完全可以采用软件开发的模式。但是传统上,软件和网络是两个不同的领域,很少有交集;软件开发主要针对单机环境,网络则主要研究系统之间的通信。互联网的兴起,使得这两个领域开始融合,现在我们必须考虑,如何...
2018-03-20 21:54:17 235
转载 HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合大数据的处理。多大?多...
2018-03-12 09:04:39 217
原创 阿里云上部署kafka,远程无法访问问题
阿里云上部署kafka后,远程总是无法访问,本地机器可以。确定是网络配置的问题,所以在server.properties 做如下修改:host.name=阿里云内网地址 #kafka绑定的interfaceadvertised.listeners=PLAINTEXT://阿里云外网映射地址:9092 # 注册到zookeeper的地址和端口...
2018-03-09 16:38:45 6922 3
转载 Swagger
1、swagger学习Swagger定义Swagger同类工具Swagger和web项目结合Swagger在公司项目中如何应用2、Swagger定义Swagger官网:http://swagger.ioGitHub地址:https://github.com/swagger-api官方注解文档:http://docs.swagger.io/swagger-core/apidocs/index.htm...
2018-03-08 17:21:15 1215
转载 Presto架构及原理
Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目...
2018-03-08 10:32:42 476
转载 深入理解shard
索引存储的时候会分为shard,这样可以提高读写性能,并可以实现负载均衡。索引不变性索引一旦被创建,就不可改变。动态索引如何在保持不可变好处(顺序写、缓存在内存)的同时更新倒排索引,不是重写整个倒排索引,而是增加额外的索引反映最近的变化。elasticsearch索引组成索引组成.pngLucene引入了per-segment search,每个segment就是一个倒排索引,但是Elastics...
2018-03-08 10:07:14 5180
转载 Apache Kylin 深入Cube和查询优化
摘要在Apache Kylin超高性能的背后,Cube是至关重要的核心。一个优化得当的Cube既能满足高速查询的需要,又能节省集群资源。本文将从多个方面入手,介绍如何通过优化Cube提升系统性能。近几年,Apache Kylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势,通过对超大规模数据集进行预计算,实现秒级甚至亚秒级的查询响应...
2018-03-07 21:12:52 918
转载 presto是什么
presto是什么是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程,支持部分标准sql...
2018-03-07 17:24:21 10119
转载 一个Spark缓存的使用示例
之前一直不是非常理解Spark的缓存应该如何使用 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果.关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明.注:因为使用的是内部数据文件, 在这边就不公布出...
2018-03-07 16:39:42 1609
转载 KafkaStreams–架构
说明: 本文转载地址:http://blog.csdn.net/ransom0512/article/details/52105379 本文对原翻译进行了补充,加上了自己的理解。本文是Confluent Platform 3.0版本中对于Kafka Streams的翻译。 原文地址:https://docs.confluent.io/3.0.0/streams/index.html 看了很多其他人...
2018-03-07 14:33:02 572
转载 Spark Streaming vs. Kafka Stream 哪个更适合你
原文:Spark Streaming vs. Kafka Stream 作者:Mahesh Chand Kandpal 翻译:雁惊寒译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理...
2018-03-07 14:30:23 1421
转载 《Kafka Stream》调研:一种轻量级流计算模式
摘要: 流计算,已经有Storm、Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计算呢?Kafka Stream 与这些框架比有什么优势?Samza、Consumer Group已经包装了Kafka轻量级的消费功能,难道不够吗? 花了一些时间阅读[docs](httpConfluent Inc(原LinkedIn Kafka作者离职后创业公司)在6月份预告推出Ka...
2018-03-07 14:26:01 786 1
转载 用Kafka实时复制PostgreSQL里的最新数据
转载来自: http://blog.confluent.io/2015/04/23/bottled-water-real-time-integration-of-postgresql-and-kafka/Summary: Confluent is starting to explore the integration of databases with event streams. As part...
2018-03-07 14:01:00 3032
转载 Bottled Water: 实时集成postgresql与kafka
摘要: Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water简介Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water可以实时地将postgresql的变化推送至kafka中。有以下几个主要特性...
2018-03-07 13:58:27 2525
转载 基于Python的Spark Streaming+Kafka编程实践及调优总结
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.htmlstreaming-kafka-integration:http://spark.apac...
2018-03-02 10:58:04 2062
转载 kafka+spark streaming代码实例(pyspark+python)
一、系统准备1.启动zookeeper:bin/zkServer.cmd start2.启动kafka:bin/kafka-server-start.sh -daemon config/server.properties3.启动spark:sbin/start-all.sh数据来源:http://files.grouplens.org/datasets/movielens/ml-100k.zip ...
2018-03-02 10:42:31 11030 3
mongo-spark-connector_2.11-2.2.0 相关jar
2017-11-23
hadoop-eclipse-plugin-2.8.1.jar
2017-11-08
生成 hadoop-eclipse-plugin-2.x 插件工具代码
2017-11-08
The_.NET_Developer_s_Guide_to_Windows_Security
2016-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人