- 博客(11)
- 资源 (3)
- 收藏
- 关注
翻译 地铁译:Spark for python developers ---Spark与数据的机器学习
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.
2016-05-30 09:11:27 12909 1
原创 NoSQL 与大数据
概览一下大数据项目中可以使用的数据存储技术,展示如何使用以及它们的区别。先理解一下NoSQL领域中各种不同的技术:key/value, 列存储,文档型和graph 图存储,然后聚焦于Couchbase 和 ElasticSearch,
2016-05-25 22:17:59 36917 2
翻译 地铁译:Spark for python developers ---Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是 Spark dataframe, Spark dataframe 受到了
2016-05-21 20:31:30 16023
原创 架构大数据分析应用
这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,融入自己的部分观点 ….典型使用场景....大数据生态系统.....
2016-05-18 21:19:50 17561 3
翻译 地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备
从GitHub收集有关Apache Spark的信息, 在Twitter上检查相关的tweets, 使用 Meetup从更广泛的开源社区得到更多Spark 相关感受。 本章中, 我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: + 从批处理到流处理介绍......
2016-05-17 06:54:45 15402
原创 一样的“Too many open files”,不一样的阿里云和青云
现象系统服务准备在青云上线,突然间发现服务时断时续,登陆服务器,查看日志,原来是‘Too many open files‘,... 青云和阿里云的解决方案不同....
2016-05-14 22:04:45 6039
翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境 4
Spark 同时可以建立在虚拟化的基础上,例如Vagrant 和Docker, 这样的虚拟化环境很容易部署到各种云服务上,例如AWS。Vagrant的虚拟化环境为了创建Python和Spark 环境......
2016-05-11 21:12:30 4047
翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境3
在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序.....
2016-05-10 20:18:44 22280
翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境2
这一段,主要是 Spark 的基本概念,以及Anaconda的基本组成。数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据. Hadoop 是第一个map-reduce的开源实现. Hadoop 依赖的分布式存储框架叫做 HDFS......Spark 是一个面向大规模数据处理的快速、分布式、通用的分析计算引擎. 主要不同于Hadoop的特点在于.....
2016-05-09 20:37:47 5499
翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境1
一个多月的地铁阅读时光,阅读《Spark for python developers》电子书,不动笔墨不看书,随手在evernote中做了一下翻译,多年不习英语,自娱自乐。周末整理了一下,发现再多做一点就可基本成文了,于是开始这个地铁译系列。为开发搭建一个独立的虚拟环境,通过Spark和Anaconda提供的PyData 库为该环境补充能力。 这些库包括Pandas,Scikit-Learn, Blaze,
2016-05-08 20:16:02 5924
原创 MongoDB 命令速查表
MongoDB 一个面向文档可扩展的高性能开源数据库,典型的应用场景有网页数据,缓存,代替文档存储等。命令的记忆和使用是一门基本功,这里准备了速查表,可以做案头手册。
2016-05-04 13:55:02 10601 2
计算机世界1000期特稿——信息革命的流金岁月
2008-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人