- 博客(78)
- 资源 (42)
- 收藏
- 关注
转载 Lateral View用法 与 Hive UDTF explode
Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N的模式,即一行转多列。hive不允许我们在UDTF函数之外,再添加其它select语句。如下,我们想将登录某个游戏的用户id放
2017-06-30 13:43:19 1907
转载 飘逸的python - 多条件排序及itemgetter的应用
曾经客户端的同事用as写一大堆代码来排序,在得知Python排序往往只需要一行,惊讶无比,遂对python产生浓厚的兴趣。之前在做足球的积分榜的时候需要用到多条件排序,如果积分相同,则按净胜球,再相同按进球数,再相同按失球数。即按积分P、净胜球GD、进球GS、失球GA这样的顺序。在python中,排序非常方便,排序的参数主要有key、reverse。参数cmp不建议使用了,在p
2017-06-29 10:17:48 313
转载 谁动了我的特征?——sklearn特征转换行为全记录
目录1 为什么要记录特征转换行为?2 有哪些特征转换的方式?3 特征转换的组合4 sklearn源码分析 4.1 一对一映射 4.2 一对多映射 4.3 多对多映射5 实践6 总结7 参考资料1 为什么要记录特征转换行为? 使用机器学习算法和模型进行数据挖掘,有时难免事与愿违:我们依仗对业务的理解,对数据的分析,以及工作经验提
2017-06-28 17:57:52 365
转载 sklearn 中的 Pipeline 机制
[-]加载数据集构思算法的流程Pipeline执行流程的分析pipeline 与深度神经网络的multi-layersfrom sklearn.pipeline import Pipeline11管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对全部步骤的流式化封装和管理(streaming work
2017-06-28 16:54:17 323
转载 sklearn preprocessing 数据预处理(OneHotEncoder)
1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder
2017-06-28 16:51:33 2899
转载 python sklearn包——cross validation笔记
preface:做实验少不了交叉验证,平时常用from sklearn.cross_validation import train_test_split,用train_test_split()函数将数据集分为训练集和测试集,但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数,我们只需要调用即可。sklearn包中cross validation的介绍:在这
2017-06-24 19:59:40 1054
转载 训练集、测试集和验证集 训练集
训练集验证集测试集为何需要划分总结 训练集、验证集和测试集这三个名词在机器学习领域极其常见,但很多人并不是特别清楚,尤其是后两个经常被人混用。在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set),验证集(validation set),测试集(test set)。 Ripley, B.D(1996)在他的经典专著Patte
2017-06-24 17:31:44 6038
原创 scikit-leann 特征提取 学习
模块 sklearn.feature_extraction 可以用来提取多种格式的数据集中,符合机器学习算法中支持的特征,如文本和图像Note 特征提取与 特征选择(Feature selection) 特征选择有很大的不同: 模型意义在于把复杂的数据,如文本和图像,转化为数字特征,从而在机器学习中使用。后者是一个机器学习中应用这些特征的方法4.2.
2017-06-24 15:52:00 1170
转载 [Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化
reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。
2017-06-24 14:35:10 840
原创 scikit-learn文档学习 预处理
4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化 对于在scikit中的大部分机器学习算法来说都是一种 常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布:**
2017-06-24 11:46:13 1198
转载 TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用
2017-06-23 16:32:51 412
转载 推荐算法之 slope one 算法
1.示例引入多个吃货在某美团的某家饭馆点餐,如下两道菜:可乐鸡翅: 红烧肉: 顾客吃过后,会有相关的星级评分。假设评分如下: 评分 可乐鸡翅 红烧肉 小明 4 5 小红 4 3 小伟 2 3 小芳 3 ? 问题:请猜测一下小芳可能会给“红烧肉”打多少分? 思路:把两道菜的平均差值求出来,可乐鸡翅减去红烧肉的平均偏差:[(4-5)+(
2017-06-23 16:09:20 644
转载 利用随机森林做特征选择
https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf摘要:在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多
2017-06-21 14:25:54 9641
原创 机器学习实战 学习笔记
jupyter nootbook 机器学习基础from numpy import *random.rand(4,4)randMat=mat(random.rand(4,4)) mat 把数组转化为矩阵invrandMat=randMat.I .I 矩阵求逆invrandMat*randMat 矩阵乘法eye(4) 产生单位矩阵K-
2017-06-21 12:51:35 2367
转载 python重定向sys.stdin、sys.stdout和sys.stderr
标准输入、标准输出和错误输出。标准输入:一般是键盘。stdin对象为解释器提供输入字符流,一般使用raw_input()和input()函数。例如:让用户输入信息(Python环境为2.x):1 #!/usr/bin/python2 # -*- coding: utf-8 -*-3 import sys4 name = raw_input("Please inpu
2017-06-20 17:39:36 9873
转载 通过一个kaggle实例学习解决机器学习问题
之前写过一篇 一个框架解决几乎所有机器学习问题 但是没有具体的例子和代码,今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下,源码可以直接点这个链接。在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程,它包括了解决问题的一般流程,描述性统计的常用方法,数据清洗的常用方法,如何由给定的普通变量启发式思考其他
2017-06-19 11:25:16 770
转载 开发者自述:我是如何从 0 到 1 走进 Kaggle 的
kaggle 是什么?Kaggle 是一个数据科学竞赛的平台,很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。 https://www.kaggle.com/ 点击导航栏的 competitions 可以看到有很多比赛,其中正式比赛,一般会有奖金或者工作机会,除了正式比赛还有一些为初学者提供的 playground,在这里可以先了解这个比赛,练习能力,
2017-06-18 15:43:33 619
转载 Python数据可视化—seaborn简介和实例
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,dataset文件可见于Github。本博客只总结了一些,方便博主自己查询,详细介绍可以看seaborn官方API和example gallery,官方文档还是写的很好的。
2017-06-18 15:38:43 6055
转载 用python参加Kaggle的些许经验总结
Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,feature的类型,比较有用的代码如下df.describe()df['Category'].unique()看是否存在missing valuedf.loc[df.Dat
2017-06-18 14:39:50 687
转载 首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度
作者:Werner Chao翻译:白静术语校对:黄凯波本文长度为2800字,建议阅读8分钟线上心理健康公司KaJin Health首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度。最近,Kaggle竞赛非常受欢迎,很多人都试图获得好成绩。但是,这些竞赛竞争十分激烈,获胜者通常不会透露其方法。通常情况下,获胜者只会写一个他们所做的事情的简单概述,而
2017-06-18 14:33:02 2793
转载 逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完
2017-06-18 14:30:41 838
转载 机器学习算法一览,应用建议与解决思路
作者:寒小阳 时间:2016年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出处1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与
2017-06-18 14:25:16 1398
转载 python字符串切割:str.split()和re.split()对比
1、str.split不支持正则及多个切割符号,不感知空格的数量,比如用空格切割,会出现下面情况。[python] view plain copy>>> s1="aa bb cc" >>> s1.split(' ') ['aa', 'bb', '', 'cc'] 因此split只适合简单的字符分割2、re.spl
2017-06-15 18:39:35 2115
转载 一个实例告诉你:Kaggle 数据竞赛都有哪些套路
前面写了很多篇理论,大家愿意一篇一篇坚持看下来其实挺不容易的,虽然理论很重要,但脱离了实践还是空中楼阁啊,算法科学家也不可能不代码啊,所以呀,今天我们就插播一期实践,和大家聊一聊实际过程当中机器学习算法的应用。对于我们这些初学者或者说外行来说,因为我们没机会接触到机器学习真正的应用项目,所以一些比赛平台往往是我们不错的选择,比如说这个Kaggle啊,前一段时间被Google收购还挺火的,还
2017-06-15 10:00:32 1946
转载 如何在 Kaggle 首战中进入前 10%
原文:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/IntroductionKaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~
2017-06-15 09:58:18 748
转载 关于Kaggle入门,看这一篇就够了
这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需要的能力的差距。虽然不是Data Science出身,但本着严谨的科研态度,在进行了大量的调研、学习以及对相关经验者的访谈之后,决定写下这篇专栏,一方面让那些对数据科学(Data Science)有兴
2017-06-15 09:57:20 34691 8
转载 ROC和AUC介绍以及如何计算AUC F
Precision-Recall曲线,这个东西应该是来源于信息检索中对相关性的评价吧,precision就是你检索出来的结果中,相关的比率;recall就是你检索出来的结果中,相关的结果占数据库中所有相关结果的比率;所以PR曲线要是绘制的话,可以先对decision进行排序,就可以当作一个rank值来用了,然后把分类问题看作检索问题,当返回一个结果的时候的PR pair是多少(R肯定接近0,P理论
2017-06-14 15:58:44 536
原创 自适应学习率算法.基于阿米霍步长准则的线性回溯搜索算法
解决在梯度下降等算法中,学习率步长的问题。二分精确搜索法把梯度转化为和学习率的函数,问题转化为找学习率的问题, 然后寻找梯度最低的时候的学习率是多少,在此过程中用了二分法查找学习率。
2017-06-13 19:33:59 1365 1
转载 四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
引言机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高
2017-06-13 10:08:36 746
转载 python中set和frozenset方法和区别
set(可变集合)与frozenset(不可变集合)的区别:set无序排序且不重复,是可变的,有add(),remove()等方法。既然是可变的,所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差集)和sysmmetric difference(对称差集)等数学运算. sets 支持 x
2017-06-12 18:40:38 376
转载 Approaching (Almost) Any Machine Learning Problem
http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakurApproaching (Almost) Any Machine Learning Problem | Abhishek ThakurKaggle Team|07.21.2016
2017-06-12 17:53:05 1611
转载 特征工程(Feature Enginnering)学习记要
http://cowlet.org/2013/10/14/understanding-data-science-designing-useful-features-with-r.html 最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为
2017-06-12 13:01:24 625
转载 连续特征离散化的方法
在FFM算法编码之前突然考虑到标准化的问题,例如大多数的属性都是0-1,出现的部分连续属性比如价格可能会很大,这些的情况会不会影响FFM的结果。首先在网上搜了一下,连续特征离散化处理起到的效果是什么,这里引用一下知乎的回答作者:严林链接:https://www.zhihu.com/question/31989952/answer/54184582来源:知乎著作权归作
2017-06-12 11:39:11 1267
转载 特征离散化系列(一)方法综述
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决
2017-06-12 11:22:51 1651
转载 机器学习案例实战-信用卡欺诈检测
故事背景:原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom
2017-06-11 21:17:10 903
转载 Airbnb欺诈预测机器学习模型设计:准确率和召回率的故事
【编者按】Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模型进行欺诈预测,本文介绍了其设计思想。假想模型是预测某些虚拟人物是否为“反面人物”,基本步骤:构建模型预期,构建训练集和测试集,特征学习,模型性能评估。其中特征转换倾向于采用条件概率编码(CP-coding),评估度量是准确率(P
2017-06-11 21:15:35 466
转载 数据变换的万能钥匙:Box-Cox变换
摘要:至于说什么时候应该用哪个函数来作变换,原文也针对常见的几种情况给出了一些建议。当然,我们会遇到的数据纷繁复杂,究竟用什么函数效果比较好,还是得通过反复尝试并实际验证才知道。读过两天前推送的《样本分布不正态?数据变换来救场!》,你一定已经熟悉了数据变换的目的和意义,也了解了常用的若干种数据变换函数,如、、等。至于说什么时候应该用哪个函数来作变换,原文也针对常见的几种情况给出了一
2017-06-11 21:09:26 8024
转载 特征工程与模型调优
[-]一 数据选择清洗采样数据选择数据格式化数据清洗正负样本不均衡二 特征处理特征处理分类1数值型2类别型3时间型4文本型5统计型6组合型特征选择1做特征选择原因2特征选择与降维区别3特征选择方法特征处理流程图四模型调优过拟合欠拟合线性模型权重分析bad-case分析模型融合一. 数据选择/清洗/采样1.
2017-06-11 20:48:33 3416
转载 如何提高深度学习(和机器学习)的性能
http://machinelearningmastery.com/improve-deep-learning-performance/原文地址:How To Improve Deep Learning Performance by Jason Brownlee 原文翻译:王昱森(ethanwang92@outlook.com) 翻译与校对:寒小阳(hanxiaoyan
2017-06-11 20:44:19 465
转载 Softmax分类回归器
softmax 回归有一个不寻常的特点:它有一个“冗余”的参数集。为了便于阐述这一特点,假设我们从参数向量 θj 中减去了向量 ψ ,这时,每一个 θj都变成了 θj−ψ(j=1,…,k) 。此时假设函数变成了以下的式子: p(y(i)=j|x(i);θ)=e(θj−ψ)Tx(i)∑kl=1e(θl−ψ)Tx(i)=eθTjx(i)e−ψTx(i)∑kl=1eθTlx(i)e−ψTx(
2017-06-11 17:44:53 486
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人