特征工程
铭霏
这个作者很懒,什么都没留下…
展开
-
机器学习中的数据清洗与特征处理综述
本文转自:美团点评技术团队:http://tech.meituan.com/mt-recommend-practice.html 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和转载 2016-06-23 22:38:55 · 1023 阅读 · 0 评论 -
降维三部曲(三)
Hello 大家好,这篇文章是它们的续作。在本篇文章里, 让我们重点来讨论讨论一下 kernel PCA。 kernel PCA: 讲它又不得不夹私货,kernel tricks。 相信大家对 kernel tricks 都不陌生,最直观的印象是它能把线性算法变成非线性, 深刻一点的理解是它自带样本空间映射功能, 可以把低维 feature 映射到高维: 从 kernel meth转载 2017-07-07 18:35:27 · 422 阅读 · 0 评论 -
降维三部曲(二)
接着写数据降维算法。上一篇文章介绍了 PCA, Factor Analysis, LLE 等三个算法, 按照顺序这篇文章就该讲到 Laplacian Eigenmaps 了,但是作者认为直接讲 Laplican Eigenmaps 好像有点太干了, 不太容易理解, 请允许我夹带点私货, 先从 Graph Laplacian 开始讲起 (graph Laplacian 是 graph theor转载 2017-07-07 18:34:18 · 354 阅读 · 0 评论 -
降维三部曲(一)
在我们解决机器学习的问题时 , 常常要从维度上做文章。有时候我们需要增维 , 比如 kernel methods 就可以在高纬度上重构样本从而解决样本在低维上不的线性不可分问题 ( 高斯 kernel 甚至可以把样本在无穷维上展开 ) 。有时候我们又需要降维 , 因为我们是三维生物 , 我们最多只能理解三维世界 , 所以想要看看手头的数据 , 就必须把它们降到三维以内 ; 另外 , 往往很多特征没转载 2017-07-07 18:37:14 · 651 阅读 · 0 评论 -
Spark机器学习API之特征处理(一)
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于转载 2016-06-01 16:00:24 · 5283 阅读 · 0 评论 -
使用sklearn做单机特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选转载 2016-09-27 23:04:05 · 949 阅读 · 0 评论 -
特征工程(sklearn)
一、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包转载 2016-08-24 13:09:33 · 10777 阅读 · 0 评论 -
Python 数据处理:Pandas 模块的 12 种实用技巧
本文转载自:http://python.jobbole.com/85742/ 简介 Python 正迅速成为数据科学家们更为钟爱的编程语言。形成该现状的理由非常充分:Python 提供了一种覆盖范围更为广阔的编程语言生态系统,以及具有一定计算深度且性能良好的科学计算库。如果您是 Python 初学者,建议首先看下Python 学习路线(http://www.an转载 2016-09-13 09:24:18 · 6238 阅读 · 0 评论 -
sklearn中常用数据预处理方法
转载自:http://2hwp.com/2016/02/03/data-preprocessing/ 常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化转载 2016-07-18 10:57:03 · 27382 阅读 · 0 评论 -
Spark机器学习API之特征处理(二)
Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。 Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于转载 2016-06-01 16:03:55 · 4257 阅读 · 0 评论 -
谷歌机器学习43条规则:机器学习工程的最佳实践经验
机器学习目前已经有非常多的应用,它相比于传统的软件工程,最大的特点即我们编写的是学习过程,因此系统能根据数据改善性能。正因为这种特性,从嵌入循环神经网络的输入法到嵌入卷积神经网络的摄像头,机器学习应用已经无处不在。但在真正做产品时,我们需要的不是机器学习专家或顶尖的深度学习技术,而是大量的模型压缩调优、部署测试和模型交互等。因此,在实践中成为一名出色的工程师极为重要。这篇文章选自谷歌开发者中文博客...转载 2018-07-05 23:08:44 · 383 阅读 · 0 评论