2017年06月_张博208

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Lateral View用法与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction，它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View？当我们想对hive表中某一列进行split之后，想对其转换成1 to N的模式，即一行转多列。hive不允许我们在UDTF函数之外，再添加其它select语句。如下，我们想将登录某个游戏的用户id放

2017-06-30 13:43:19 1907

转载飘逸的python - 多条件排序及itemgetter的应用

曾经客户端的同事用as写一大堆代码来排序，在得知Python排序往往只需要一行，惊讶无比，遂对python产生浓厚的兴趣。之前在做足球的积分榜的时候需要用到多条件排序，如果积分相同，则按净胜球，再相同按进球数，再相同按失球数。即按积分P、净胜球GD、进球GS、失球GA这样的顺序。在python中，排序非常方便，排序的参数主要有key、reverse。参数cmp不建议使用了，在p

2017-06-29 10:17:48 313

转载谁动了我的特征？——sklearn特征转换行为全记录

目录1 为什么要记录特征转换行为？2 有哪些特征转换的方式？3 特征转换的组合4 sklearn源码分析　　4.1 一对一映射　　4.2 一对多映射　　4.3 多对多映射5 实践6 总结7 参考资料1 为什么要记录特征转换行为？　　使用机器学习算法和模型进行数据挖掘，有时难免事与愿违：我们依仗对业务的理解，对数据的分析，以及工作经验提

2017-06-28 17:57:52 365

转载 sklearn 中的 Pipeline 机制

[-]加载数据集构思算法的流程Pipeline执行流程的分析pipeline 与深度神经网络的multi-layersfrom sklearn.pipeline import Pipeline11管道机制在机器学习算法中得以应用的根源在于，参数集在新数据集（比如测试集）上的重复使用。管道机制实现了对全部步骤的流式化封装和管理（streaming work

2017-06-28 16:54:17 323

转载 sklearn preprocessing 数据预处理（OneHotEncoder）

1. one hot encodersklearn.preprocessing.OneHotEncoderone hot encoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：>>> from sklearn.preprocessing import OneHotEncoder>>> enc = OneHotEncoder

2017-06-28 16:51:33 2899

转载 python sklearn包——cross validation笔记

preface：做实验少不了交叉验证，平时常用from sklearn.cross_validation import train_test_split，用train_test_split()函数将数据集分为训练集和测试集，但这样还不够。当需要调试参数的时候便要用到K-fold。scikit给我们提供了函数，我们只需要调用即可。sklearn包中cross validation的介绍：在这

2017-06-24 19:59:40 1054

转载训练集、测试集和验证集训练集

训练集验证集测试集为何需要划分总结训练集、验证集和测试集这三个名词在机器学习领域极其常见，但很多人并不是特别清楚，尤其是后两个经常被人混用。在有监督(supervise)的机器学习中，数据集常被分成2~3个，即：训练集(train set)，验证集(validation set)，测试集(test set)。 Ripley, B.D（1996）在他的经典专著Patte

2017-06-24 17:31:44 6038

原创 scikit-leann 特征提取学习

模块 sklearn.feature_extraction 可以用来提取多种格式的数据集中，符合机器学习算法中支持的特征，如文本和图像Note 特征提取与特征选择(Feature selection) 特征选择有很大的不同: 模型意义在于把复杂的数据，如文本和图像，转化为数字特征，从而在机器学习中使用。后者是一个机器学习中应用这些特征的方法4.2.

2017-06-24 15:52:00 1170

转载 [Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化

reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。

2017-06-24 14:35:10 840

原创 scikit-learn文档学习预处理

4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类，用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化对于在scikit中的大部分机器学习算法来说都是一种常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布：**

2017-06-24 11:46:13 1198

转载 TF-IDF及其算法

概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用

2017-06-23 16:32:51 412

转载推荐算法之 slope one 算法

1.示例引入多个吃货在某美团的某家饭馆点餐，如下两道菜：可乐鸡翅：红烧肉：顾客吃过后，会有相关的星级评分。假设评分如下：评分可乐鸡翅红烧肉小明 4 5 小红 4 3 小伟 2 3 小芳 3 ？问题：请猜测一下小芳可能会给“红烧肉”打多少分？思路：把两道菜的平均差值求出来，可乐鸡翅减去红烧肉的平均偏差：[（4-5）+（

2017-06-23 16:09:20 644

转载利用随机森林做特征选择

https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf摘要：在随机森林介绍中提到了随机森林一个重要特征：能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多

2017-06-21 14:25:54 9641

原创机器学习实战学习笔记

jupyter nootbook 机器学习基础from numpy import *random.rand(4,4)randMat=mat(random.rand(4,4)) mat 把数组转化为矩阵invrandMat=randMat.I .I 矩阵求逆invrandMat*randMat 矩阵乘法eye(4) 产生单位矩阵K-

2017-06-21 12:51:35 2367

转载 python重定向sys.stdin、sys.stdout和sys.stderr

标准输入、标准输出和错误输出。标准输入：一般是键盘。stdin对象为解释器提供输入字符流，一般使用raw_input()和input()函数。例如：让用户输入信息（Python环境为2.x）:1 #!/usr/bin/python2 # -*- coding: utf-8 -*-3 import sys4 name = raw_input("Please inpu

2017-06-20 17:39:36 9873

转载通过一个kaggle实例学习解决机器学习问题

之前写过一篇一个框架解决几乎所有机器学习问题但是没有具体的例子和代码，今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下，源码可以直接点这个链接。在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程，它包括了解决问题的一般流程，描述性统计的常用方法，数据清洗的常用方法，如何由给定的普通变量启发式思考其他

2017-06-19 11:25:16 770

转载开发者自述：我是如何从 0 到 1 走进 Kaggle 的

kaggle 是什么？Kaggle 是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。 https://www.kaggle.com/ 点击导航栏的 competitions 可以看到有很多比赛，其中正式比赛，一般会有奖金或者工作机会，除了正式比赛还有一些为初学者提供的 playground，在这里可以先了解这个比赛，练习能力，

2017-06-18 15:43:33 619

转载 Python数据可视化—seaborn简介和实例

Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集，dataset文件可见于Github。本博客只总结了一些，方便博主自己查询，详细介绍可以看seaborn官方API和example gallery，官方文档还是写的很好的。

2017-06-18 15:38:43 6055

转载用python参加Kaggle的些许经验总结

Step1: Exploratory Data AnalysisEDA，也就是对数据进行探索性的分析，一般就用到pandas和matplotlib就够了。EDA一般包括：每个feature的意义，feature的类型,比较有用的代码如下df.describe()df['Category'].unique()看是否存在missing valuedf.loc[df.Dat

2017-06-18 14:39:50 687

转载首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度

作者：Werner Chao翻译：白静术语校对：黄凯波本文长度为2800字，建议阅读8分钟线上心理健康公司KaJin Health首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度。最近，Kaggle竞赛非常受欢迎，很多人都试图获得好成绩。但是，这些竞赛竞争十分激烈，获胜者通常不会透露其方法。通常情况下，获胜者只会写一个他们所做的事情的简单概述，而

2017-06-18 14:33:02 2793

转载 python字符串切割：str.split()和re.split()对比

1、str.split不支持正则及多个切割符号，不感知空格的数量，比如用空格切割，会出现下面情况。[python] view plain copy>>> s1="aa bb cc" >>> s1.split(' ') ['aa', 'bb', '', 'cc'] 因此split只适合简单的字符分割2、re.spl

2017-06-15 18:39:35 2115

转载一个实例告诉你：Kaggle 数据竞赛都有哪些套路

前面写了很多篇理论，大家愿意一篇一篇坚持看下来其实挺不容易的，虽然理论很重要，但脱离了实践还是空中楼阁啊，算法科学家也不可能不代码啊，所以呀，今天我们就插播一期实践，和大家聊一聊实际过程当中机器学习算法的应用。对于我们这些初学者或者说外行来说，因为我们没机会接触到机器学习真正的应用项目，所以一些比赛平台往往是我们不错的选择，比如说这个Kaggle啊，前一段时间被Google收购还挺火的，还

2017-06-15 10:00:32 1946

转载如何在 Kaggle 首战中进入前 10%

原文：https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/IntroductionKaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金，在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛，在 2125 个参赛队伍中排名第 98 位（~

2017-06-15 09:58:18 748

这次酝酿了很久想给大家讲一些关于Kaggle那点儿事，帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目，最好能亲身参与进来，体会一下学校所学的东西和想要解决一个实际的问题所需要的能力的差距。虽然不是Data Science出身，但本着严谨的科研态度，在进行了大量的调研、学习以及对相关经验者的访谈之后，决定写下这篇专栏，一方面让那些对数据科学（Data Science）有兴

2017-06-15 09:57:20 34691 8

转载 ROC和AUC介绍以及如何计算AUC F

Precision-Recall曲线，这个东西应该是来源于信息检索中对相关性的评价吧，precision就是你检索出来的结果中，相关的比率；recall就是你检索出来的结果中，相关的结果占数据库中所有相关结果的比率；所以PR曲线要是绘制的话，可以先对decision进行排序，就可以当作一个rank值来用了，然后把分类问题看作检索问题，当返回一个结果的时候的PR pair是多少（R肯定接近0，P理论

2017-06-14 15:58:44 536

原创自适应学习率算法.基于阿米霍步长准则的线性回溯搜索算法

解决在梯度下降等算法中，学习率步长的问题。二分精确搜索法把梯度转化为和学习率的函数，问题转化为找学习率的问题，然后寻找梯度最低的时候的学习率是多少，在此过程中用了二分法查找学习率。

2017-06-13 19:33:59 1365 1

转载四大机器学习降维算法：PCA、LDA、LLE、Laplacian Eigenmaps

引言机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高

2017-06-13 10:08:36 746

转载 python中set和frozenset方法和区别

set(可变集合)与frozenset(不可变集合)的区别：set无序排序且不重复，是可变的，有add（），remove（）等方法。既然是可变的，所以它不存在哈希值。基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交集), difference(差集)和sysmmetric difference(对称差集)等数学运算. sets 支持 x

2017-06-12 18:40:38 376

转载 Approaching (Almost) Any Machine Learning Problem

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakurApproaching (Almost) Any Machine Learning Problem | Abhishek ThakurKaggle Team|07.21.2016

2017-06-12 17:53:05 1611

转载特征工程(Feature Enginnering)学习记要

http://cowlet.org/2013/10/14/understanding-data-science-designing-useful-features-with-r.html 最近学习特征工程（Feature Enginnering）的相关技术，主要包含两块：特征选取（Feature Selection）和特征抓取（Feature Extraction）。这里记录一些要点，作为

2017-06-12 13:01:24 625

转载连续特征离散化的方法

在FFM算法编码之前突然考虑到标准化的问题，例如大多数的属性都是0-1，出现的部分连续属性比如价格可能会很大，这些的情况会不会影响FFM的结果。首先在网上搜了一下，连续特征离散化处理起到的效果是什么，这里引用一下知乎的回答作者：严林链接：https://www.zhihu.com/question/31989952/answer/54184582来源：知乎著作权归作

2017-06-12 11:39:11 1267

转载特征离散化系列(一)方法综述

一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练方法虽然有多种，但目标是一致的，训练结果对效果的影响是比较大，但是训练方法本身，对效果的影响却不是决定性的，因为训练的是每个特征的权重，权重细微的差别不会引起ctr的巨大变化。在训练方法确定后，对ctr预估起到决

2017-06-12 11:22:51 1651

转载机器学习案例实战-信用卡欺诈检测

故事背景：原始数据为个人交易记录，但是考虑数据本身的隐私性，已经对原始数据进行了类似PCA的处理，现在已经把特征数据提取好了，接下来的目的就是如何建立模型使得检测的效果达到最好，这里我们虽然不需要对数据做特征提取的操作，但是面对的挑战还是蛮大的。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom

2017-06-11 21:17:10 903

转载 Airbnb欺诈预测机器学习模型设计：准确率和召回率的故事

【编者按】Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式，来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模型进行欺诈预测，本文介绍了其设计思想。假想模型是预测某些虚拟人物是否为“反面人物”，基本步骤：构建模型预期，构建训练集和测试集，特征学习，模型性能评估。其中特征转换倾向于采用条件概率编码（CP-coding），评估度量是准确率（P

2017-06-11 21:15:35 466

转载数据变换的万能钥匙：Box-Cox变换

摘要：至于说什么时候应该用哪个函数来作变换，原文也针对常见的几种情况给出了一些建议。当然，我们会遇到的数据纷繁复杂，究竟用什么函数效果比较好，还是得通过反复尝试并实际验证才知道。读过两天前推送的《样本分布不正态？数据变换来救场！》，你一定已经熟悉了数据变换的目的和意义，也了解了常用的若干种数据变换函数，如、、等。至于说什么时候应该用哪个函数来作变换，原文也针对常见的几种情况给出了一

2017-06-11 21:09:26 8024

转载特征工程与模型调优

[-]一数据选择清洗采样数据选择数据格式化数据清洗正负样本不均衡二特征处理特征处理分类1数值型2类别型3时间型4文本型5统计型6组合型特征选择1做特征选择原因2特征选择与降维区别3特征选择方法特征处理流程图四模型调优过拟合欠拟合线性模型权重分析bad-case分析模型融合一. 数据选择/清洗/采样1.

2017-06-11 20:48:33 3416

转载如何提高深度学习(和机器学习)的性能

http://machinelearningmastery.com/improve-deep-learning-performance/原文地址：How To Improve Deep Learning Performance by Jason Brownlee 原文翻译：王昱森（ethanwang92@outlook.com）翻译与校对：寒小阳（hanxiaoyan

2017-06-11 20:44:19 465

转载 Softmax分类回归器

softmax 回归有一个不寻常的特点：它有一个“冗余”的参数集。为了便于阐述这一特点，假设我们从参数向量 θj 中减去了向量 ψ ，这时，每一个 θj都变成了 θj−ψ(j=1,…,k) 。此时假设函数变成了以下的式子： p(y(i)=j|x(i);θ)=e(θj−ψ)Tx(i)∑kl=1e(θl−ψ)Tx(i)=eθTjx(i)e−ψTx(i)∑kl=1eθTlx(i)e−ψTx(

2017-06-11 17:44:53 486

llama3 study

2024-07-25

tensorrt ppt资料

tensorrt的教程，和相关的资料，案例，供大家学习

2024-07-09

GPU-知识点资料合集

bank_conflicts coalescing

2023-08-03

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书