Zhang's Wikipedia

玩就玩大的

排序:
默认
按更新时间
按访问量
RSS订阅

pandas 学习 ——Series

1. Series 的获得 df.iloc 按行或者按列索引一行,或一列得到的就是一个 Series pd.Series from datetime import datetime dates = [datetime(2011, 1, i) for i in [2, 5, 7, 8, 10...

2019-01-17 22:14:24

阅读数:8

评论数:0

sklearn 下的树模型

树模型天然会对特征进行重要性排序,以分裂数据集,构建分支; 1. 使用 Random Forest from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegress...

2018-04-16 23:16:43

阅读数:859

评论数:0

sklearn preprocessing 数据预处理(OneHotEncoder)

hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:

2017-05-28 19:19:04

阅读数:17779

评论数:4

numpy 数据类型与 Python 原生数据类型

查看 numpy 数据类型和 Python 原生数据类型之间的对应关系:In [51]:

2017-05-24 23:51:41

阅读数:2937

评论数:0

sklearn 特征降维利器 —— PCA & TSNE

同为降维工具,二者的主要区别在于, 所在的包不同(也即机制和原理不同) from sklearn.decomposition import PCA from sklearn.manifold import TSNE 因为原理不同,导致,tsne 保留下的属性信息,更具代表性,也即最能体现样本间的...

2017-03-22 19:00:09

阅读数:8273

评论数:0

sklearn 与 xgboost 的组合使用

对于 Windows 用户而言,需要首先进入 cmd 命令行界面, Python:C:\Users\hasee> python --version JavaC:\Users\hasee> java -version

2017-02-21 18:01:09

阅读数:444

评论数:0

sklearn 下的 ensemble learning

随机森林(random forest),GBDT(Gradient Boosting Decision Tree),前者中的森林,与后者中的 Boosting 都在说明,两种模型其实都是一种集成学习(ensemble learning)的学习方式。 1. 随机森林 随机森林的一个基本框架:

2016-12-21 22:54:00

阅读数:753

评论数:0

sklearn.metrics —— 混淆矩阵及其绘制、Accuracy/Precision/Recall/F1-score

t-SNE(t-distribution Stochastic Neighbor Embedding)是目前最为流行的高维数据的降维算法。 t-SNE 成立的前提基于这样的一个假设:我们现实世界观察到的数据集,都在本质上有一种低维的特性(low intrinsic dimensionality),...

2016-10-25 23:45:45

阅读数:3753

评论数:0

pandas 索引 —— index、set_index、reset_index

在机器学习模型训练的过程中,一般会有两层循环,外层循环表示 epoch,内层循环进行样本集的遍历和迭代;n_epochs, n_iters = 5, 6 for i in range(n_epochs): for j in range(n_iters): print 'it...

2016-04-26 20:11:02

阅读数:841

评论数:0

sklearn 下的 SVM 及其参数

工业界的 SVM,以及 Logistic Regression,因其相较深度神经网络更为轻量级,且性能也不会差别很大的缘故,一直是模型选择的首选。而在学术界,深度学习方兴未艾的今天,SVM 只能作为一个基准模型使用,作为其他模型的陪衬。我们就以一个手写字符识别(mnist)的例子说明,如何使用 S...

2016-04-26 09:31:15

阅读数:2328

评论数:0

sklearn 特征选择与特征抽取 —— feature_selection、feature_extraction

首先,我们以利用 scikit-learn 对数据进行逻辑分析为例,进行说明 scikit-learn 的使用流程。首先进行特征筛选(feature selection),特征筛选的方法有很多,主要包含在 scikit-learn 的 feature_selection 库中,GenericUni...

2016-04-01 16:26:32

阅读数:1019

评论数:0

sklearn 细节 —— LinearRegression、Ridge

决策树(Decision Tree)基于决策树思想的算法主要有: (1)ID3(Iterative Dichotomiser 3) (2)C4.5 (3)CART(Classification And Regression Tree) ID3 (Iterative Dichotomiser 3,迭...

2016-03-24 09:29:24

阅读数:903

评论数:0

numpy ndarray 多维数组的内存管理

使用智能指针 RAII:资源获取即初始化;

2016-03-14 14:32:05

阅读数:680

评论数:0

sklearn 中的 Pipeline 机制

from sklearn.pipeline import Pipeline管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对每一个步骤的流式化封装和管理(streaming workflows with pipelines)。注意:管道机制更像...

2016-01-15 09:28:57

阅读数:27943

评论数:12

pandas —— pd.read_csv 与df.to_csv

read_csv 中的参数与 DataFrame

2016-01-15 08:35:04

阅读数:22356

评论数:0

example datasets in sklearn

sklearn.datasets: Datasets¶ make_** ⇒ generator load_** ⇒ loader 0. 可用数据集 iris(三个类别)digits(10个类别) from sklearn.datasets import load_iris ...

2016-01-10 20:45:30

阅读数:1014

评论数:0

numpy 常用工具函数 —— np.bincount/np.average

np.bincount():统计次数接口为:numpy.bincount(x, weights=None, minlength=None)尤其适用于计算数据集的标签列(y_train)的分布(distribution):>>> np...

2016-01-10 11:50:35

阅读数:8741

评论数:2

numpy 常用api(三)

numpy 常用api(一)np.logaddexpnumpy.logaddexp(x1, x2[, out])也即计算log(exp(x1)+exp(x2))如何通过logaddexp函数计算log(x+y)\log(x+y)(如果x,yx,\,y都含有部分指数形式的话),log(x+y) ==...

2015-12-29 20:35:27

阅读数:4279

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭