![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
SamWang_333
这个作者很懒,什么都没留下…
展开
-
kfold cross_validate Stratified KFold StratifiedKFold 和 StratifiedShuffleSplit 交叉验证方法
from sklearn.model_selection import train_test_split,cross_val_score,cross_validate # 交叉验证所需的函数from sklearn.model_selection import KFold,LeaveOneOut,LeavePOut,ShuffleSplit # 交叉验证所需的子集划分方法from sklear...原创 2020-01-29 22:41:55 · 729 阅读 · 0 评论 -
自己记录 渔船 数据 分析
import pandas as pdimport os#usr/bin/python3.4-- coding: utf-8 --df = pd.read_csv(r’E:\machineLearning\data\fishing\hy_round1_train_20200102\0.csv’,encoding=‘utf8’,engine=‘python’)path = r’E:\mac...原创 2020-01-25 23:21:05 · 1107 阅读 · 0 评论 -
朴素贝叶斯模型
朴素贝叶斯模型,全称为:Naive Bayesian Model,Naive 能翻译为朴素,已经是很高看它了,因为我们知道naive的含义如下:naive: marked by or showing unaffected simplicity and lack of guile or worldly experience;它是简单的,它是缺乏worldly experience的。正如它的名...原创 2020-01-15 11:39:17 · 297 阅读 · 0 评论 -
机器学习的一些基础问题
参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage#http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearning/33798...原创 2020-01-14 23:40:55 · 282 阅读 · 0 评论 -
使用 Pandas 对机器学习 数据 进行预处理 分类型 进行 连续数据归一化 和 离散数据编码
Pandasread_csv ()df.columns.tolist() #获取所有的列名字df.dtypes.value_counts() # 有多少数据类型统计Select_dtypes 连续数据和离散数据的 分拆str_list = df.select_dtypes(include=[‘object’])print(str_list.columns) #encode...原创 2020-01-07 15:40:17 · 655 阅读 · 0 评论 -
机器学习的评价方法 Recall Metric ROC
分类问题1.1 混淆矩阵(Confusion Matrix)矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假负(False Negative , FN):被模型预测为负的正样本。真负(True Negative , TN):被模型...原创 2020-01-06 16:49:31 · 1169 阅读 · 0 评论 -
使用sklearn的cross_val_score 迭代 寻找K-means 参数
from sklearn import datasets #自带数据集from sklearn.model_selection import train_test_split,cross_val_score #划分数据 交叉验证from sklearn.neighbors import KNeighborsClassifier #一个简单的模型,只有K一个参数,类似K-meansimpor...原创 2019-12-14 22:28:40 · 358 阅读 · 0 评论 -
特征数据清洗 编码 标准化
特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。另外有些特征之间高度相关,在其中一个特征提供了足够的信息之后,与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特征数量或者仅选择最佳特征。一、scikit-learn数据集scikit-learn提供了一些用于...原创 2019-12-13 14:43:20 · 413 阅读 · 0 评论 -
机器学习模型 特征选择 方法汇总 线性,随机森林,
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。但是它几乎很少出现于机器学习书本里...原创 2019-12-13 14:18:36 · 1563 阅读 · 0 评论 -
重要 线性回归的特征选择 根据 P值, SelectKBest(识别哪些feature选中), SelectPercentile 迭代选择
在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验,得到一组分数、p-value数据,然后我们排序选择分数最高(或p-value最小等)的那些特征。...原创 2019-12-13 14:07:46 · 3401 阅读 · 0 评论 -
线性回归的特征筛选方法
https://zhuanlan.zhihu.com/p/61224180在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验,得到一组分数、p-v...原创 2019-12-13 00:08:53 · 4387 阅读 · 1 评论 -
回归 特征 选择 方法
作者:Data Insights链接:https://zhuanlan.zhihu.com/p/61223950来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。一、特征选择的重要性机器学习过程中,特征选择是非常重要的一步。可以说,选到了合适的特征,那么模型的训练就成功了一半。一方面,遗漏掉重要特征肯定是我们无法接受的,这会导致我们的模型拟合能力不足;另一方...转载 2019-12-12 23:59:37 · 2238 阅读 · 0 评论 -
回归模型 中 特征 重要性 分析
1.树模型,建立好模型以后,看那个属性里根节点越近则越重要。模型会自带一些输出重要属性的方法。2.线性模型,模型一般可以直接输出参数,参数越大越重要。3.利用互信息等类似的方法可以做,sklearn有,scipy里面也有。l1正则,可以观察训练完毕后参数为零的特征,删除掉就可以。模型自带。2. sklearn有一个feature_select模块可以做特征选择。sklearn库里面其实...原创 2019-12-12 23:54:21 · 6087 阅读 · 0 评论 -
boston 房价 线性回归
-- encoding:utf-8 --from sklearn import datasetsfrom sklearn.model_selection import train_test_split #原文中cross_validation已过时改为model_selectionfrom sklearn.linear_model import LinearRegressionimport...原创 2019-12-12 22:08:24 · 104 阅读 · 0 评论 -
线性回归 模型的评价方法 MSE, MAE,R2
回归模型的评价在sklearn中包含四种评价尺度,分别为mean_squared_error、mean_absolute_error、explained_variance_scorer2_score【2】。mean_absolute_error:平均绝对误差(Mean Absolute Error,MAE),用于评估预测结果和真实数据集的接近程度的程度,其其值越小说明拟合效果越好。...原创 2019-12-12 22:02:42 · 3563 阅读 · 0 评论 -
housing 机器学习 预测 线性回归 随机森林
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibimport numpy as npfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selection import trai...原创 2019-12-12 21:55:22 · 551 阅读 · 0 评论 -
SQL 查询
查询数据(SELECT)(重点/掌握)基本查询语句的语法select * from 表名;—默认查询所有字段的数据select 字段1,字段2,字段3 from 表名; —查询指定的字段的数据DISTINCT —去除掉重复的关键字可以在查询的时候进行运算SELECT username,math+10,english+10,chinese+10 FROM stu;用as的关键字,起别名...原创 2019-12-12 21:32:15 · 209 阅读 · 0 评论 -
随机森林 Iris 特征重要性
随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中,与随机森林算法相关的函数都位于集成算法模块ensemble中,相关的算法函数包括随机森林算法(RandomForestClassifier)、袋装算法(BaggingClassifier)、完全随机树算法(Extra...原创 2019-12-12 14:40:09 · 8037 阅读 · 0 评论 -
使用NLP从文章中自动提取关键字
运用场景: call centre 数据的关键字提取,从而根据关键字归类为部件相关类(ADF,Engine, FB,boot up,duplex issue etc)和流程相关类(install issue, print issue, fax issue etc.。在研究和新闻文章中,关键词构成了一个重要的组成部分,因为它们提供了文章内容的简洁表示。关键词在从信息检索系统,书目数据库和搜索引...转载 2019-12-10 15:32:02 · 1426 阅读 · 0 评论 -
python 回归和决策树 数据验证和参数调整
cross_val_score, cv=10, 随机分成10个子集from sklearn.model_selection import cross_val_scorescores = cross_val_score(tree_reg, housing_prepared, housing_labels,scoring=“neg_mean_squared_error”, cv=10)tr...原创 2019-12-09 11:34:33 · 745 阅读 · 0 评论 -
Python使用 sklearn pipeline进行数据清洗
setup pipelinefrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalernum_pipeline = Pipeline([(‘imputer’, Imputer(strategy=“median”)), #中值写入(‘attribs_adder’, Combi...原创 2019-12-08 23:44:05 · 696 阅读 · 0 评论 -
Python下数理统计T检验和卡方检验
from scipy import stats1 sample testx = stats.norm.rvs(loc=5,scale=10, size=50)print(x.mean())print(stats.ttest_1samp(x, 5.0))print(stats.ttest_1samp(x, 1.0))2 sample ttestx =stats.norm.rvs(loc...原创 2019-12-07 22:31:43 · 539 阅读 · 0 评论 -
python 数据预处理
观察数据housing.info()housing.describe()housing.hist(bins=50, figsize=(20,15)) # 连续数据 plt.show()离散变量使用value_counts()观察:housing[‘ocean_proximity’].value_counts()分割数据为测试数据和训练数据from sklearn.model_s...原创 2019-12-06 22:48:46 · 1113 阅读 · 0 评论 -
机器学习数据的标准化(normalization)和归一化
数据的标准化(normalization)和归一化数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。*从经验上说,归一化是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。目前数据标准化方法有多种,归结起来...原创 2019-12-05 14:30:10 · 1171 阅读 · 0 评论 -
协方差矩阵
先讨论下方差的概念和样本方差。图一为标准差,标准差提供了一种衡量数据在特征空间的分布程度。我们知道无偏估计的样本方差公式可以通过如下方式获得:但是,方差只能用于解释数据在平行于特征空间轴上的扩展。参考图二中的二维特征空间:对于这个数据,我们可以用x轴方向计算出方差σ(x,x),用y轴方向计算出方差σ(y,y)。然而,数据的水平扩展和垂直扩展不能清晰解释对角线上的相关性。图二清晰表明,整...原创 2019-12-05 11:41:28 · 18835 阅读 · 0 评论 -
PCA主元分析方法描述
主元分析也就是PCA,主要用于数据降维。转载知乎https://www.zhihu.com/question/41120789/answer/481966094s通过去中心化和线性变换,将多维度的特征转换通过投影(坐标转换)成几个主成分特征,这个主成分特征是原来特征的线性变换。主成分称为 它们称作“主元1”、“主元2”。多维度特征直接有一定相关性!!线性变换是最小二乘法。两个坐标轴,减...原创 2019-12-05 11:24:19 · 1473 阅读 · 0 评论