spark
正行天下
个人github: https://github.com/neowgz
技术改变世界~
前百度资深研发工程师&高级项目经理,现滴滴机器学习算法专家
展开
-
Spark 入门篇之spark&spark sql
Spark 入门篇1 概述 Spark是一个通用的快速的大数据处理引擎,是类似于hadoop的map reduce大数据并行处理引擎。它的数据源可以是hdfs、cassandra、hbase等,除常规编程模式外,它还是支持sql使用方式。Spark支持streaming流式计算(秒级延迟)、机器学习库MLib、图计算GraphX、Bagel(Google的pregel原创 2016-02-17 20:40:22 · 4085 阅读 · 0 评论 -
基于spark的大数据提取校验框架
针对数据提取中数据校验和错误定位、缺失值填充等通用问题,我开发了基于spark和python语言的数据提取校验框架wind-fe。 wind_fe数据提取框架将特征提取(数据提取)过程中自动化校验、缺失填充、调试、join产出、批量回溯、自动调度运行、自动添加分区表等通用环节抽象复用。基于这个框架,开发者可以用较少的开发成本获取到自动化校验过的特征数据,同时节约其他数据提取通用环节开发成本。该框架在自动化校验环节也保留扩展点,可以在一次数据校验任务中完成扩展校验,校验所需要的额外的资源消耗较少。该框架在我们原创 2016-10-10 20:57:24 · 3112 阅读 · 2 评论