- 博客(5)
- 资源 (16)
- 收藏
- 关注
原创 Spark SQL中DataFrame API 的解析
collect, collectAsListcountfirstheadshowtakecacheColumnsdtypesexplainisLocalprintSchemaregisterTempTableschematoDFaggapplyasdistinctexceptexplodefiltergroupByintersectjoinlimit
2017-05-18 10:58:15 852
原创 Spark基本介绍和编译安装
Spark快如闪电的集群计算 是快速和通用的大规模数据处理技术【speed】 执行mr作业程序在内存比hadoop快100倍,磁盘上快10倍 spark有着DAG(有向无环图)执行引擎,支持离散数据流和内存计算【易于使用】 多种语言编写 Java scala python R【Generality】 合成SQL,流计算,复杂分析spark有自己的集群计算技术,扩展了hadoop mr模型
2017-05-14 12:12:55 416
原创 SPARK必备概念
RDD (resilient distributed dataset)弹性分布式数据集One stack to rule them all(一个技术堆栈容纳各种数据处理技术) 包括的大数据计算模型:MapReduce、Streaming、SQL、Machine Learning、graph Processing对应的Spark四大子框架:Spark Streaming,Spark SQL,Mlli
2017-05-09 17:18:54 490
原创 卢辉《数据挖掘与数据化运营实战:思路、方法、技巧和应用》第一遍 读书笔记
原书京东链接 [TOC]第一遍(3,4两个月)观后感也不知道我们家宝宝哪里找到这本书的,结果 让我先拿来学习了。 这本书是我转行一来,认认真真从头到尾读的第一本跟数据挖掘相关的书,坦白讲,实用价值要远远高于看《机器学习》、《数据挖掘导论》这种偏学术的书籍; 作者是30岁左右从一名机械专业相关的工作人员转行到数据行业;所以他的很多见解,往往能从高处落点,看行业由来和发展,分析业务需求与痛点,阐述
2017-05-01 16:39:18 3483 2
达普 热敏打印机EH300 使用手册和测试apk
2016-10-26
TortoiseGit 64bit
2016-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人