大数据
文章平均质量分 88
正行天下
个人github: https://github.com/neowgz
技术改变世界~
前百度资深研发工程师&高级项目经理,现滴滴机器学习算法专家
展开
-
Spark 入门篇之spark&spark sql
Spark 入门篇1 概述 Spark是一个通用的快速的大数据处理引擎,是类似于hadoop的map reduce大数据并行处理引擎。它的数据源可以是hdfs、cassandra、hbase等,除常规编程模式外,它还是支持sql使用方式。Spark支持streaming流式计算(秒级延迟)、机器学习库MLib、图计算GraphX、Bagel(Google的pregel原创 2016-02-17 20:40:22 · 4124 阅读 · 0 评论 -
人工智能商业应用成功的六大必要条件
本文会整合分享下国内外很多专家分析总结出了人工智能商业成功的六大必要条件。本文来源于杨强教授、华先胜、陈雨强等专家分享的内容,仅做少量的整合,是整合转载。包括了商业模式、边界清晰、大数据、外部反馈(用户)、计算资源、懂人工智能的跨界人才(擅长应用和算法)等六大必要条件原创 2017-03-15 20:16:58 · 3204 阅读 · 0 评论 -
基于spark的大数据提取校验框架
针对数据提取中数据校验和错误定位、缺失值填充等通用问题,我开发了基于spark和python语言的数据提取校验框架wind-fe。 wind_fe数据提取框架将特征提取(数据提取)过程中自动化校验、缺失填充、调试、join产出、批量回溯、自动调度运行、自动添加分区表等通用环节抽象复用。基于这个框架,开发者可以用较少的开发成本获取到自动化校验过的特征数据,同时节约其他数据提取通用环节开发成本。该框架在自动化校验环节也保留扩展点,可以在一次数据校验任务中完成扩展校验,校验所需要的额外的资源消耗较少。该框架在我们原创 2016-10-10 20:57:24 · 3180 阅读 · 2 评论 -
机器学习模型优化中常见问题和解决思路
模型优化中常见问题和解决思路,包括过拟合、欠拟合等问题原创 2017-05-09 09:02:33 · 10747 阅读 · 1 评论 -
机器学习模型应用以及模型优化的一些思路
本文会介绍如何应用机器学习模型来构建一个智能化应用的通用的过程以及过程中每个环节一些实践性的思路,包括问题界定和定义、 label标注的定义、 数据样本的筛选和构造、 选择机器学习算法、 确定模型性能的度量方式、模型优化、(包括数据分析可视化、特征工程、算法调参、bad case 分析)、设计模型应用的策略、 设计实验以及确定评估指标、 模型线上应用(包括线上以及离线特征导入以及线上特征提取、模型线上化、离线和线上模型性能确认、策略研发等)、业务效果评估等原创 2017-03-09 19:55:45 · 29519 阅读 · 3 评论