- 博客(5)
- 资源 (16)
- 收藏
- 关注
原创 Spark SQL中DataFrame API 的解析
collect, collectAsList count first head show take cache Columns dtypes explain isLocal printSchema registerTempTable schema toDF agg apply as distinct except explode filter groupBy intersect join limit
2017-05-18 10:58:15 852
原创 Spark基本介绍和编译安装
Spark快如闪电的集群计算 是快速和通用的大规模数据处理技术【speed】 执行mr作业程序在内存比hadoop快100倍,磁盘上快10倍 spark有着DAG(有向无环图)执行引擎,支持离散数据流和内存计算【易于使用】 多种语言编写 Java scala python R【Generality】 合成SQL,流计算,复杂分析spark有自己的集群计算技术,扩展了hadoop mr模型
2017-05-14 12:12:55 416
原创 SPARK必备概念
RDD (resilient distributed dataset)弹性分布式数据集One stack to rule them all(一个技术堆栈容纳各种数据处理技术) 包括的大数据计算模型:MapReduce、Streaming、SQL、Machine Learning、graph Processing对应的Spark四大子框架:Spark Streaming,Spark SQL,Mlli
2017-05-09 17:18:54 490
原创 卢辉《数据挖掘与数据化运营实战:思路、方法、技巧和应用》第一遍 读书笔记
原书京东链接 [TOC]第一遍(3,4两个月)观后感也不知道我们家宝宝哪里找到这本书的,结果 让我先拿来学习了。 这本书是我转行一来,认认真真从头到尾读的第一本跟数据挖掘相关的书,坦白讲,实用价值要远远高于看《机器学习》、《数据挖掘导论》这种偏学术的书籍; 作者是30岁左右从一名机械专业相关的工作人员转行到数据行业;所以他的很多见解,往往能从高处落点,看行业由来和发展,分析业务需求与痛点,阐述
2017-05-01 16:39:18 3482 2
达普 热敏打印机EH300 使用手册和测试apk
2016-10-26
TortoiseGit 64bit
2016-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人