- 博客(8)
- 资源 (1)
- 收藏
- 关注
转载 特征工程--特征选择wrapper(递归特征消除)
递归特征消除 (Recursive Feature Elimination)递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练。sklearn官方解释:对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那...
2018-10-22 10:36:42 15020
转载 文本分类之有多少个不同的单词
P(Y∣X)=P(X∣Y)P(X)P(Y|X)=\frac{P(X|Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)#!/usr/bin/python-- coding: utf-8 --#cangye@hotmail.com“”"文本向量化方法1统计词频“”"print(doc)#feature_extraction 文本向量化import sklearn.fea...
2018-10-21 15:57:37 184
转载 数据归一化 特征处理
import numpy as npX = np.zeros([1000,2])x1=np.random.normal(0.0,3,[1000])x2=np.random.normal(1.0,0.1,[1000])#减去均值x1 = x1-np.mean(x1)x2 = x2 - np.mean(x2)x1 = x1/(np.std(x1)+1e-6)x2 = x2/(np.st...
2018-10-21 14:29:20 280
转载 KNN算法
#!/usr/bin/python#-- coding: utf-8 --#cangye@hotmail.com“”"KNNKNN方法中没有训练过程,其分类方式就是寻找训练集附近的点。所以带来的一个缺陷就是计算代价非常高但是其思想实际上却是机器学习中普适的“”"print(doc)from sklearn.neighbors import KNeighborsClassifie...
2018-10-21 14:13:43 230
原创 过拟合欠拟合问题
过拟合欠拟合问题过拟合模型复杂度高,数据量过少,容易引起过拟合如何判断过拟合欠拟合:通过loss函数训练集loss测试集loss结论小小模型适中大大模型欠拟合小大模型过拟合大小无此场景...
2018-10-21 11:23:24 711
原创 gini函数和entropy 函数 数据分类效果对比
gini函数和entropy 函数 数据分类效果对比from sklearn.datasets import load_irisfrom sklearn import treeimport osimport pydotprint(os.getcwd())#clf = tree.DecisionTreeClassifier(criterion = “entropy”) #entropy...
2018-10-20 11:28:23 4601
转载 特征选择之方差选择法VarianceThreshold
VarianceThreshold#方差选择法#使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:from sklearn.feature_selection import VarianceThreshold#方差选择法,返回值为特征选择后的数据 #参数thres...
2018-10-13 17:40:22 24835 3
PCA最大可重构性
2018-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人