
numpy-scipy-pandas-sklearn-xgb
文章平均质量分 86
五道口纳什
wx公众号/B站:五道口纳什
展开
-
Python 基础——range() 与 np.arange()
- `range()`返回的是`range object`,而`np.numpy()`返回的是`numpy.ndarray()`-`range()`不支持步长为小数,`np.arange()`支持步长为小数- 两者都可用于迭代原创 2015-10-29 16:46:30 · 137166 阅读 · 12 评论 -
sklearn 特征选择与特征抽取 —— feature_selection、feature_extraction
首先,我们以利用 scikit-learn 对数据进行逻辑分析为例,进行说明 scikit-learn 的使用流程。首先进行特征筛选(feature selection),特征筛选的方法有很多,主要包含在 scikit-learn 的 feature_selection 库中,GenericUnivariateSelect SelectFpr VarianceThresh原创 2016-04-01 16:26:32 · 3100 阅读 · 0 评论 -
sklearn 特征降维利器 —— PCA & TSNE
同为降维工具,二者的主要区别在于,所在的包不同(也即机制和原理不同) from sklearn.decomposition import PCAfrom sklearn.manifold import TSNE因为原理不同,导致,tsne 保留下的属性信息,更具代表性,也即最能体现样本间的差异;TSNE 运行极慢,PCA 则相对较快;因此更为一般的处理,尤其在展示(可视化)高维数据时,常原创 2017-03-22 19:00:09 · 13678 阅读 · 0 评论 -
sklearn.metrics —— 混淆矩阵及其绘制、Accuracy/Precision/Recall/F1-score
t-SNE(t-distribution Stochastic Neighbor Embedding)是目前最为流行的高维数据的降维算法。t-SNE 成立的前提基于这样的一个假设:我们现实世界观察到的数据集,都在本质上有一种低维的特性(low intrinsic dimensionality),尽管它们嵌入在高维空间中,甚至可以说,高维数据经过降维后,在低维状态下,更能显现其本质特性,这其实也是流原创 2016-10-25 23:45:45 · 8124 阅读 · 0 评论 -
sklearn preprocessing 数据预处理(OneHotEncoder)
hot encoder 不仅对 label 可以进行编码,还可对 categorical feature 进行编码:原创 2017-05-28 19:19:04 · 28847 阅读 · 5 评论 -
numpy 常用api(三)
numpy 常用api(一)np.logaddexpnumpy.logaddexp(x1, x2[, out])也即计算log(exp(x1)+exp(x2))如何通过logaddexp函数计算log(x+y)\log(x+y)(如果x,yx,\,y都含有部分指数形式的话),log(x+y) == np.logaddexp(np.log(x), np.log(y))原创 2015-12-29 20:35:27 · 6426 阅读 · 0 评论 -
pandas 学习 ——Series
1. Series 的获得df.iloc 按行或者按列索引一行,或一列得到的就是一个 Seriespd.Seriesfrom datetime import datetimedates = [datetime(2011, 1, i) for i in [2, 5, 7, 8, 10, 12]]s = pd.Series(np.random.randn(6), index=date...原创 2019-01-17 22:14:24 · 934 阅读 · 2 评论 -
pandas —— pd.read_csv 与df.to_csv
read_csv 中的参数与 DataFrame原创 2016-01-15 08:35:04 · 27494 阅读 · 1 评论 -
xgboost 可视化与结果分析
xgboost 的可视化,调用 xgb.to_graphviz 或 xgb.plot_tree 接口;1. 指定 fmap(feature map)https://www.kaggle.com/mmueller/xgb-feature-importance-python按照 feature map 的格式,编写 fmap 文件:def ceate_feature_map(feature...原创 2019-04-04 00:42:56 · 9981 阅读 · 2 评论 -
sklearn 细节 —— LinearRegression、Ridge
决策树(Decision Tree)基于决策树思想的算法主要有:(1)ID3(Iterative Dichotomiser 3)(2)C4.5(3)CART(Classification And Regression Tree)ID3 (Iterative Dichotomiser 3,迭代二叉树三代)是一种用于决策树的算法。其特点如下:(1)无法直接处理数值型数据(numerical d原创 2016-03-24 09:29:24 · 1591 阅读 · 0 评论 -
sklearn 下的 SVM 及其参数
工业界的 SVM,以及 Logistic Regression,因其相较深度神经网络更为轻量级,且性能也不会差别很大的缘故,一直是模型选择的首选。而在学术界,深度学习方兴未艾的今天,SVM 只能作为一个基准模型使用,作为其他模型的陪衬。我们就以一个手写字符识别(mnist)的例子说明,如何使用 SVM :import pickle, gzipfrom sklearn import svm def原创 2016-04-26 09:31:15 · 3474 阅读 · 0 评论 -
example datasets in sklearn
sklearn.datasets: Datasets¶ make_** ⇒ generatorload_** ⇒ loader0. 可用数据集iris(三个类别)digits(10个类别)from sklearn.datasets import load_iris # from sklearn.datasets import load_digitsiris_da...原创 2016-01-10 20:45:30 · 1811 阅读 · 0 评论 -
numpy 常用工具函数 —— np.bincount/np.average
np.bincount():统计次数接口为:numpy.bincount(x, weights=None, minlength=None)尤其适用于计算数据集的标签列(y_train)的分布(distribution):>>> np.bincount(y_train.astype(np.int32))>>> np.bincount(np.arr原创 2016-01-10 11:50:35 · 13276 阅读 · 3 评论 -
sklearn 下的树模型
树模型天然会对特征进行重要性排序,以分裂数据集,构建分支;1. 使用 Random Forestfrom sklearn.datasets import load_bostonfrom sklearn.ensemble import RandomForestRegressorboston_data = load_boston()X = boston_data['d...原创 2018-04-16 23:16:43 · 1744 阅读 · 0 评论 -
sklearn 与 xgboost 的组合使用
对于 Windows 用户而言,需要首先进入 cmd 命令行界面,Python:C:\Users\hasee> python --versionJavaC:\Users\hasee> java -version原创 2017-02-21 18:01:09 · 1267 阅读 · 0 评论 -
pandas 索引 —— index、set_index、reset_index
在机器学习模型训练的过程中,一般会有两层循环,外层循环表示 epoch,内层循环进行样本集的遍历和迭代;n_epochs, n_iters = 5, 6for i in range(n_epochs): for j in range(n_iters): print 'iterations: ', i * n_iters + j原创 2016-04-26 20:11:02 · 6200 阅读 · 0 评论 -
sklearn 中的 Pipeline 机制
from sklearn.pipeline import Pipeline管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对每一个步骤的流式化封装和管理(streaming workflows with pipelines)。注意:管道机制更像是编程思想的创新,而非算法的创新。接下来我们以一个具体的例子来演示sklearn库中强大的Pipelin原创 2016-01-15 09:28:57 · 59317 阅读 · 18 评论 -
numpy 数据类型与 Python 原生数据类型
查看 numpy 数据类型和 Python 原生数据类型之间的对应关系:In [51]:原创 2017-05-24 23:51:41 · 7151 阅读 · 0 评论 -
numpy ndarray 多维数组的内存管理
使用智能指针RAII:资源获取即初始化;原创 2016-03-14 14:32:05 · 1910 阅读 · 0 评论 -
sklearn 下的 ensemble learning
随机森林(random forest),GBDT(Gradient Boosting Decision Tree),前者中的森林,与后者中的 Boosting 都在说明,两种模型其实都是一种集成学习(ensemble learning)的学习方式。1. 随机森林随机森林的一个基本框架:原创 2016-12-21 22:54:00 · 1647 阅读 · 0 评论