2019年12月_SamWang_333

原创遍历文件夹并 copy 文件程序

import osimport sysimport timefrom shutil import Errorfrom shutil import copystatfrom shutil import copy2图片所处的绝对路径，其中r表示去掉python的内部转义PicPath = r’E:\images’CopyPath = r’E:\images\backup’根据传参判断...

2019-12-27 15:16:22 147

原创遍历文件夹读取JPG文件，并处理短横线，书横线

import osimport imutilsimport cv2import pytesseractimport redef get_text(gray): # get page number information from the head, then fill it by 255image_text = gray[:180, :400]text_iamge = pytes...

2019-12-27 15:12:31 155

原创使用sklearn的cross_val_score 迭代寻找K-means 参数

from sklearn import datasets #自带数据集from sklearn.model_selection import train_test_split,cross_val_score #划分数据交叉验证from sklearn.neighbors import KNeighborsClassifier #一个简单的模型，只有K一个参数，类似K-meansimpor...

2019-12-14 22:28:40 384

特征工程是机器学习的第一步，涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设，当使用原始数据集时，它们的性能可能会受到负面影响。另外有些特征之间高度相关，在其中一个特征提供了足够的信息之后，与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特征数量或者仅选择最佳特征。一、scikit-learn数据集scikit-learn提供了一些用于...

2019-12-13 14:43:20 424

原创机器学习模型特征选择方法汇总线性，随机森林，

特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”，由此可见其重要性。但是它几乎很少出现于机器学习书本里...

2019-12-13 14:18:36 1594

原创重要线性回归的特征选择根据 P值， SelectKBest（识别哪些feature选中）, SelectPercentile 迭代选择

在特征选择中，最适合在探索阶段使用的就是过滤式的方法，比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法，那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验，得到一组分数、p-value数据，然后我们排序选择分数最高(或p-value最小等)的那些特征。...

2019-12-13 14:07:46 3441

原创线性回归的特征筛选方法

https://zhuanlan.zhihu.com/p/61224180在特征选择中，最适合在探索阶段使用的就是过滤式的方法，比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法，那么今天我们就进一步介绍更加实用、有效的单变量选择法。sklearn中的单变量选择法单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行检验，得到一组分数、p-v...

2019-12-13 00:08:53 4472 1

转载回归特征选择方法

作者：Data Insights链接：https://zhuanlan.zhihu.com/p/61223950来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。一、特征选择的重要性机器学习过程中，特征选择是非常重要的一步。可以说，选到了合适的特征，那么模型的训练就成功了一半。一方面，遗漏掉重要特征肯定是我们无法接受的，这会导致我们的模型拟合能力不足；另一方...

2019-12-12 23:59:37 2255

原创回归模型中特征重要性分析

1.树模型，建立好模型以后，看那个属性里根节点越近则越重要。模型会自带一些输出重要属性的方法。2.线性模型，模型一般可以直接输出参数，参数越大越重要。3.利用互信息等类似的方法可以做，sklearn有，scipy里面也有。l1正则，可以观察训练完毕后参数为零的特征，删除掉就可以。模型自带。2. sklearn有一个feature_select模块可以做特征选择。sklearn库里面其实...

2019-12-12 23:54:21 6151

原创线性回归变量正则化模型的保存和加载

回归问题的判定目标值为连续性的值(小数)期末成绩= 0.7考试成绩+0.3平时成绩西瓜好坏 = 0.2色泽+0.5根 + 0.3敲声 z这是分类问题找关系。找到特征和最终结果的关系程度找到权重y =kx+b+b 是一种偏置。是为了当特征只有一个时也能通用多个特征： k1房子面积+k2房子面积 + b多个特征： w1房屋面积+w2房屋面积+ 。。。+bw表示每个特征的权重。b表示...

2019-12-12 23:17:15 212

原创如何看待印度人成为谷歌新CEO

2019-12-12 22:23:01 88

原创 boston 房价线性回归

-- encoding:utf-8 --from sklearn import datasetsfrom sklearn.model_selection import train_test_split #原文中cross_validation已过时改为model_selectionfrom sklearn.linear_model import LinearRegressionimport...

2019-12-12 22:08:24 133

原创线性回归模型的评价方法 MSE, MAE,R2

回归模型的评价在sklearn中包含四种评价尺度，分别为mean_squared_error、mean_absolute_error、explained_variance_scorer2_score【2】。mean_absolute_error：平均绝对误差（Mean Absolute Error，MAE），用于评估预测结果和真实数据集的接近程度的程度，其其值越小说明拟合效果越好。...

2019-12-12 22:02:42 3603

原创 housing 机器学习预测线性回归随机森林

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibimport numpy as npfrom sklearn.model_selection import cross_val_scorefrom sklearn.model_selection import trai...

2019-12-12 21:55:22 579

原创 SQL 查询

查询数据（SELECT）（重点/掌握）基本查询语句的语法select * from 表名；—默认查询所有字段的数据select 字段1，字段2，字段3 from 表名； —查询指定的字段的数据DISTINCT —去除掉重复的关键字可以在查询的时候进行运算SELECT username,math+10,english+10,chinese+10 FROM stu;用as的关键字，起别名...

2019-12-12 21:32:15 232

原创随机森林 Iris 特征重要性

随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中，与随机森林算法相关的函数都位于集成算法模块ensemble中，相关的算法函数包括随机森林算法（RandomForestClassifier）、袋装算法（BaggingClassifier）、完全随机树算法（Extra...

2019-12-12 14:40:09 8145

原创 python 保存 excel file IPA data

import pandasimport matplotlib.pyplot as pltdata = pandas.read_excel(‘IPA2_hulkDE.xlsx’)print(data.columns)ParameterList =[‘TOPOFIMAGE_DEVIATION’, ‘TOPOFIMAGE_SKEW’,‘LEFTOFIMAGE_DEVIATION’, ‘LEFT...

2019-12-12 11:16:04 147

转载使用NLP从文章中自动提取关键字

运用场景： call centre 数据的关键字提取，从而根据关键字归类为部件相关类（ADF,Engine, FB,boot up,duplex issue etc）和流程相关类(install issue, print issue, fax issue etc.。在研究和新闻文章中，关键词构成了一个重要的组成部分，因为它们提供了文章内容的简洁表示。关键词在从信息检索系统，书目数据库和搜索引...

2019-12-10 15:32:02 1481

原创 python 回归和决策树数据验证和参数调整

cross_val_score, cv=10, 随机分成10个子集from sklearn.model_selection import cross_val_scorescores = cross_val_score(tree_reg, housing_prepared, housing_labels,scoring=“neg_mean_squared_error”, cv=10)tr...

2019-12-09 11:34:33 773

原创 Python使用 sklearn pipeline进行数据清洗

setup pipelinefrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalernum_pipeline = Pipeline([(‘imputer’, Imputer(strategy=“median”)), #中值写入(‘attribs_adder’, Combi...

2019-12-08 23:44:05 716

原创 Python下数理统计T检验和卡方检验

from scipy import stats1 sample testx = stats.norm.rvs(loc=5,scale=10, size=50)print(x.mean())print(stats.ttest_1samp(x, 5.0))print(stats.ttest_1samp(x, 1.0))2 sample ttestx =stats.norm.rvs(loc...

2019-12-07 22:31:43 572

原创 python 数据预处理

观察数据housing.info()housing.describe()housing.hist(bins=50, figsize=(20,15)) # 连续数据 plt.show()离散变量使用value_counts()观察：housing[‘ocean_proximity’].value_counts()分割数据为测试数据和训练数据from sklearn.model_s...

2019-12-06 22:48:46 1155

原创机器学习数据的标准化（normalization）和归一化

数据的标准化（normalization）和归一化数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。*从经验上说，归一化是让不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。目前数据标准化方法有多种，归结起来...

2019-12-05 14:30:10 1229

原创协方差矩阵

先讨论下方差的概念和样本方差。图一为标准差，标准差提供了一种衡量数据在特征空间的分布程度。我们知道无偏估计的样本方差公式可以通过如下方式获得：但是，方差只能用于解释数据在平行于特征空间轴上的扩展。参考图二中的二维特征空间：对于这个数据，我们可以用x轴方向计算出方差σ(x,x)，用y轴方向计算出方差σ(y,y)。然而，数据的水平扩展和垂直扩展不能清晰解释对角线上的相关性。图二清晰表明，整...

2019-12-05 11:41:28 18901

原创 PCA主元分析方法描述

主元分析也就是PCA，主要用于数据降维。转载知乎https://www.zhihu.com/question/41120789/answer/481966094s通过去中心化和线性变换，将多维度的特征转换通过投影（坐标转换）成几个主成分特征，这个主成分特征是原来特征的线性变换。主成分称为它们称作“主元1”、“主元2”。多维度特征直接有一定相关性！！线性变换是最小二乘法。两个坐标轴，减...

2019-12-05 11:24:19 1491

qq_38844711的博客