Sklearn
安装
安装Sklearn会遇到错误,一般都是网络问题,这个时候只能借助国内镜像源来加速:
pip install 包名-i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
详细解释参考:命令详解
安装好后,pycharm可以成功运行,但是有个问题,它安装到本地哪儿了?答案是默认安装在一个C盘里,在C盘,那我就必须给它改一下。我们按照这篇博客来捋一下:
首先用一下命令在cmd中看一下
python -m site
得到
红框的地方是更改之后的结果,我们也主要是针对这个两个地方更改。打开安装python目录下的python\Lib\site.py
找到
把USER_SITE改成F:\python\Lib\site-packages
把USER_BASE改成F:\python\Scripts
文件夹里都能找到这个两个文件,意思就是把脚本路径改一下,把下载文件地址改一下。更改完了过后,也能测试成功!
使用
Sklearn框架
【转自https://blog.csdn.net/weixin_39025679/article/details/104476706】
函数导图
sklearn.feature_selection
sklearn.feature_selection模块被广泛应用于样本数据集的特征选择和特征降维,以减少特征数量, 增强对特征和特征值之间的理解,提高预测准确性或提高在高维数据集上的性能。
- 过滤法Filter
VarianceThreshold方法是特征选择中的基础方法,它将删除方差未达到阈值的特征。默认是删除所有零方差特征,在数据处理上很有价值。
例如:有一组数据,每个数据有三个特征,对每个特征进行方差计算,因为例子是0 1 ,所有方法为Var[X] = p*(1-p),假设我们要删除0或1超过80%的特征,则阈值为0.8*(1-0.8),经过计算,第一列1占5/6>80%,所以 VarianceThreshold删除第一列特征,保留第二三列特征。
from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
print('Initial X:\n', X)
sel = VarianceThreshold(threshold=(0.8*(1-0.8)))
X_selected = sel.fit_transform(X)
print('Selected X:\n', X_selected)
运行结果如下:
未完待续。。。
model.fit() fit函数
fit,transform,fit_transform详解
python中的fit_transform()函数和transform()函数
fit_transform,fit,transform区别和作用详解!!!!!!
特征选择—SelectKBest