Lateral View用法 与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。 1. Why we need Lateral View? 当我们想对hive表中某一列进行split之后,想对其转换成1 to N的模式,即一行转多列。 hiv...

2017-06-30 13:43:19

阅读数:873

评论数:0

飘逸的python - 多条件排序及itemgetter的应用

曾经客户端的同事用as写一大堆代码来排序,在得知Python排序往往只需要一行,惊讶无比,遂对python产生浓厚的兴趣。 之前在做足球的积分榜的时候需要用到多条件排序,如果积分相同,则按净胜球,再相同按进球数,再相同按失球数。 即按积分P、净胜球GD、进球GS、失球GA这样的顺序。 ...

2017-06-29 10:17:48

阅读数:180

评论数:0

谁动了我的特征?——sklearn特征转换行为全记录

目录 1 为什么要记录特征转换行为? 2 有哪些特征转换的方式? 3 特征转换的组合 4 sklearn源码分析   4.1 一对一映射   4.2 一对多映射   4.3 多对多映射 5 实践 6 总结 7 参考资料 1 为什么要记录特征转换行为?   使...

2017-06-28 17:57:52

阅读数:195

评论数:0

sklearn 中的 Pipeline 机制

[-] 加载数据集构思算法的流程Pipeline执行流程的分析pipeline 与深度神经网络的multi-layers from sklearn.pipeline import Pipeline11 管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如...

2017-06-28 16:54:17

阅读数:134

评论数:0

sklearn preprocessing 数据预处理(OneHotEncoder)

1. one hot encoder sklearn.preprocessing.OneHotEncoder one hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码: >>> from sklear...

2017-06-28 16:51:33

阅读数:2116

评论数:0

python sklearn包——cross validation笔记

preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们...

2017-06-24 19:59:40

阅读数:518

评论数:0

训练集、测试集和验证集 训练集

训练集验证集测试集为何需要划分总结   训练集、验证集和测试集这三个名词在机器学习领域极其常见,但很多人并不是特别清楚,尤其是后两个经常被人混用。 在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set),验证集(validation set)...

2017-06-24 17:31:44

阅读数:2504

评论数:0

scikit-leann 特征提取 学习

模块 sklearn.feature_extraction 可以用来提取多种格式的数据集中,符合机器学习算法中支持的特征,如文本和图像 Note   特征提取与 特征选择(Feature selection) 特征选择有很大的不同: 模型意义在于把复杂的数据,如文本和图像,转化为数字特征,...

2017-06-24 15:52:00

阅读数:517

评论数:0

[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化

reference: http://www.cnblogs.com/chaosimple/p/4153167.html   一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std  计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处...

2017-06-24 14:35:10

阅读数:399

评论数:0

scikit-learn文档学习 预处理

4.3. 数据预处理 ``sklearn.preprocessing``包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。 4.3.1. 标准化、去均值、方差缩放(variance scaling) 数据集的** 标准化 对于在scikit中的大部分机器学习...

2017-06-24 11:46:13

阅读数:573

评论数:0

TF-IDF及其算法

概念      TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次...

2017-06-23 16:32:51

阅读数:203

评论数:0

推荐算法之 slope one 算法

1.示例引入 多个吃货在某美团的某家饭馆点餐,如下两道菜: 可乐鸡翅:    红烧肉:  顾客吃过后,会有相关的星级评分。假设评分如下:  评分 可乐鸡翅 红烧肉  小明 4 5  小红 4 3  小伟 2 3  小芳 3 ?  问题:请猜测一下小芳可能会给“红烧肉”打多少分?  思路:把...

2017-06-23 16:09:20

阅读数:149

评论数:0

利用随机森林做特征选择

https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf 摘要:在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确...

2017-06-21 14:25:54

阅读数:1029

评论数:0

机器学习实战 学习笔记

jupyter nootbook   机器学习基础 from numpy import * random.rand(4,4) randMat=mat(random.rand(4,4))   mat 把数组转化为矩阵 invrandMat=randMat.I   .I 矩阵求逆 invran...

2017-06-21 12:51:35

阅读数:1131

评论数:0

python重定向sys.stdin、sys.stdout和sys.stderr

标准输入、标准输出和错误输出。 标准输入:一般是键盘。stdin对象为解释器提供输入字符流,一般使用raw_input()和input()函数。 例如:让用户输入信息(Python环境为2.x): 1 #!/usr/bin/python 2 # -*- coding: utf...

2017-06-20 17:39:36

阅读数:4714

评论数:0

通过一个kaggle实例学习解决机器学习问题

之前写过一篇 一个框架解决几乎所有机器学习问题 但是没有具体的例子和代码,今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下,源码可以直接点这个链接。 在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程,它...

2017-06-19 11:25:16

阅读数:286

评论数:0

开发者自述:我是如何从 0 到 1 走进 Kaggle 的

kaggle 是什么? Kaggle 是一个数据科学竞赛的平台,很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。  https://www.kaggle.com/  点击导航栏的 competitions 可以看到有很多比赛,其中正式比赛,一般会有奖金或者工作机会,除了...

2017-06-18 15:43:33

阅读数:393

评论数:0

Python数据可视化—seaborn简介和实例

Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,dataset文件可见于Github。本博客只总结了一些,方便博主自己查询,详细介...

2017-06-18 15:38:43

阅读数:2708

评论数:0

用python参加Kaggle的些许经验总结

Step1: Exploratory Data Analysis EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括: 每个feature的意义,feature的类型,比较有用的代码如下 df.describe() df['Category...

2017-06-18 14:39:50

阅读数:341

评论数:0

首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度

作者:Werner Chao 翻译:白静 术语校对:黄凯波 本文长度为2800字,建议阅读8分钟 线上心理健康公司KaJin Health首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度。 最近,Kaggle竞赛非常受欢迎,很多人都试图获得好成绩。但是,这些竞赛竞争十分激烈,...

2017-06-18 14:33:02

阅读数:1145

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭