- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 scikit-learn之sklearn.model_selection.StratifiedFold
StratifiedFoldStratified K-Folds cross-validatorProvides train/test indices to split data in train/test sets.This cross-validation object is a variation of KFold that returns stratified folds. The ...
2019-05-30 10:10:38 882
原创 python数据类型之set
1.定义一个set对象是不同的可哈希对象的无序集合。2.支持的操作1、成员检测(in、not in)2、从序列中删除重复项3、计算数学运行(交集、并集、差集、对称差集)3.示例a = [1,2,3,4,5,4,3,2,1]len(set([i ** 2 for i in a]))输出结果:5...
2019-05-27 11:18:01 227
原创 集成学习——组合不同的模型
集成学习(ensemble method)的目标是:将不同的分类器组合成为一个元分类器,与包含于其中的单个分类器相比,元分类器具有更好的泛化性能。多数投票原则(majority voting):将大多数分类器预测的结果作为最终类标,也就是说,将得票率超过50%的结果作为类标。多类标分类选择得票最多的类别。基于训练集,首先训练 m 个不同的成员分类器 (C1,...,Cm)(C1,......
2018-09-16 20:05:32 5637 4
原创 模型评估与参数调优
基于流水线的工作流scikit-learn 中的 Pipline 类。它使得我们可以拟合包含任意多个处理步骤的模型,并模型用于新数据的预测。案例1:威斯康星乳腺癌数据集使用Breast Cancer Wisconsin 数据集,此数据集共包含569个恶性或良性肿瘤细胞样本。数据集的前两列分别存储了样本唯一的ID以及对样本的诊断结果(M代表恶性,B代表良性)。数据集的3~32列包含了30...
2018-09-11 17:54:33 6791
原创 非线性映射——核主成分分析
许多机器学习算法都假定输入数据是线性可分的。感知器为了保证其收敛性,甚至要求训练数据是完美线性可分的。然而,在现实世界中,大多数情况下我们面对的是非线性问题,针对此类问题,通过降维技术,如PCA和LDA等,将其转化为线性问题并不是最好的办法。 核函数与核技巧通过将非线性可分问题映射到维度更高的特征空间,使其在新的特征空间上线性可分。为了将样本 x∈Rdx∈Rd{x\in R^d} 转换到...
2018-09-09 22:08:03 16973 3
原创 无监督数据降维技术——线性判别分析
线性判别分析基本原理线性判别分析(Linear Discriminant Analysis, LDA)是一种可作为特征提取的技术,它可以提高数据分析过程中的计算效率,同时,对于不适用于正则化的模型,它可以降低因维数灾难带来的过拟合。LDA的基本概念与PCA非常相似,PCA试图在数据集中找到方差最大的正交的主成分分量的轴,而LDA的目标是发现可以最优化分类的特征子空间。LDA与PCA都是可用...
2018-09-09 14:32:36 1928
原创 无监督数据降维技术——主成分分析
数据压缩技术可以帮助我们对数据进行存储和分析,特征提取通过归纳总结数据集所蕴含的信息,可以将原始数据集变换到一个维度更低的新的特征子空间,从而实现数据压缩。无监督数据降维技术——主成分分析主成分分析是一种广泛应用于不同领域的无监督线性数据转换技术,其突出作用是降维。PCA的目标是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。如果使用PCA降维,...
2018-09-09 11:58:32 1423
原创 numpy.ravel() 和 numpy.flatten() 的用法
作用实现的功能是一致的(将多维数组降位一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy.ravel()返回的是视图(view,也颇有几分C/C++引用reference的意味),会影响(reflects)原始矩阵。import numpy as npx = ...
2018-06-28 16:09:07 964
原创 numpy.c_和numpy.r_的用法
numpy.c_:将切片对象沿第二个轴(按列)连接。np.c_[np.array([1,2,3]), np.array([4,5,6])]array([[1, 4], [2, 5], [3, 6]])np.c_[np.array([[1,2,3]]), 0, 0, np.array([[4,5,6]])]array([[1, 2, 3, 0, 0, 4,...
2018-06-27 10:53:38 10137 1
原创 Ubuntu编译安装opencv3.4
anaconda opencv窗口函数调用问题安装anacoda opencv package后,在调用cv2.imshow('dst', dst)的时候会显示如下错误: Unspecified error (The function is not implemented. Rebuild the library with Windows, GTK+ 2.x or Carbon suppor...
2018-05-06 23:50:27 1639
原创 numpy——hsplit函数、vsplit函数、array_split函数
hsplit函数(col方向)使用hsplit,通过指定要返回的相同shape的array的数量,或者通过指定分割应该发生之后的列来沿着其横轴拆分原array:指定相同shape的array的数量来拆分原array: import numpy as np harr = np.floor(10 * np.random.random((2, 6)))print(harr)pr...
2018-05-03 23:33:46 24744 1
原创 Linux下启动器添加程序快捷方式
启动器添加程序Desktop Entry 文件标准是用来描述Linux下程序启动配置信息,Desktop Entry 文件标准由 FreeDesktop.org 制定。配置pycharm快捷方式1. cd /usr/share/applications2. vim pycharm.desktop3. write the info and save [Desktop E...
2018-04-21 17:03:17 1078
原创 anaconda配置清华大学开源软件镜像
配置镜像在anaconda安装好之后,默认的镜像是官方的,由于官网的镜像在境外,使用国内的镜像能够加快访问的速度。这里选择了清华的的镜像。镜像的地址如下:tuna。Anaconda 安装包可以到 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载。在Anaconda Prompt中运行:conda config --add...
2018-04-21 15:23:06 26472
原创 使用git客户端管理github项目
git简介Git是一款分布式版本控制系统,有别于SVN集中式版本管理控制系统,Git可以让团队更加高效的协同工作,提高工作效率,也不会因为频繁遭遇提交冲突而中断,更不用担心数据的备份,随着近几年互联网的发展,现在很多的开发者已经开始使用Git,相信不久的将来,Git上的人数还将越来越多.。Git优点相比SVN,git可以轻松拥有无限个分支SVN使用的时候必须联网才能正常工作(一旦服...
2018-04-16 15:46:18 596
原创 vscode安装golang扩展插件
t安装完vscode,打开.go文件时,vscode会推荐安装go扩展插件,但是vscode中有些go的插件总是提示安装fail。如golint插件,解决办法如下:cd $GOPATH/src/golang.org/x/git clone https://github.com/golang/tools.git cd $GOPATH/src/github.com/git clone...
2018-04-14 00:57:50 11594
原创 redhat开机自动连接网络设置
设置开机自动连接网络su root //切换到rootcd /etc/sysconfig/network-scripts //进入系统网络管理目录vim ifcfg-ens33 //ens33位无线网卡的interface将ONBOOT修改为yes...
2018-04-10 10:13:56 2631
原创 安装linux-headers
CentOS/RedHat 系统sudo yum -y install kernel-headers //安装kernel-headerssudo yum -y install kernel-devel //安装kernel-develUbuntu/Debian系统sudo apt-get install build-essential //install bui...
2018-04-08 16:07:43 37366 5
原创 RedHat7更换Yum源
RedHat7 Yum源配置Yum源 Yum(全称为 Yellow dog Updater, Modified),是一个软件包管理器,基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软体包,无须繁琐地一次次下载和安装。Yum的基本工作机制如下: 服务器端:在服务器上面存放了所有的RPM软件包,然后以相关的功...
2018-03-25 15:57:51 4034
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人