- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 程序员的机器学习入门笔记(八):最优化与计算复杂度概述
最优化定义无论做何事,人们总希望用最小的代价来取得最大的收益,为此人们发明了各种各样的数据工具(导数,微积分),并尝试使用这些知识来最优化解决实际问题。但是在解决实际问题最优化解的时候,经常是伴随着两个重要的特征多元化:事物的发展受到多种因素的影响非线性:发展规律是非线性的为了解决上面的两个问题,二战后线性规划诞生了最优化数学定义最优化问题是应用数学的重要研究领域。它是研究在给定约束之下如何寻
2017-01-22 17:55:07 3803 5
原创 Zeppelin介绍与入门实践
介绍 Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述执行引擎的作用就是执行笔记中的与引擎相对应的代码,不同的引擎也会有不同的配置,引擎的详细说明参考官方文
2017-01-13 18:47:20 24721 3
翻译 使用Ganglia监控Zookeeper
说明Zookeeper是搭建分布式集群中常用的基础工具,所以对其性能的监控就相当重要。虽然可以使用4字命令对Zookeeper进行监控,但是如果可以,还是图形化监控起来更方便一点。本文主要描述如何再Ganglia中增加对Zookeeper的支持 Ganglia版本要求:Ganglia 3.1.x部署下载Git代码:git clone git@github.com:andreisavu/zooke
2017-01-11 17:09:16 2304
原创 基于Python的Spark Streaming+Kafka编程实践
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明 spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html streaming-kafka-integration:http://sp
2017-01-05 18:02:10 21551 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人