自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 kfold cross_validate Stratified KFold StratifiedKFold 和 StratifiedShuffleSplit 交叉验证方法

from sklearn.model_selection import train_test_split,cross_val_score,cross_validate # 交叉验证所需的函数 from sklearn.model_selection import KFold,LeaveOneOut...

2020-01-29 22:41:55

阅读数 7

评论数 0

原创 自己记录 渔船 数据 分析

import pandas as pd import os #usr/bin/python3.4 -- coding: utf-8 -- df = pd.read_csv(r’E:\machineLearning\data\fishing\hy_round1_train_20200102\0.cs...

2020-01-25 23:21:05

阅读数 37

评论数 0

原创 朴素贝叶斯模型

朴素贝叶斯模型,全称为:Naive Bayesian Model,Naive 能翻译为朴素,已经是很高看它了,因为我们知道naive的含义如下: naive: marked by or showing unaffected simplicity and lack of guile or world...

2020-01-15 11:39:17

阅读数 3

评论数 0

原创 机器学习的一些基础问题

参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage# http://blog.csdn.NET/heyongluoyao8/article/details/49429629...

2020-01-14 23:40:55

阅读数 2

评论数 0

原创 使用 Pandas 对机器学习 数据 进行预处理 分类型 进行 连续数据归一化 和 离散数据编码

Pandas read_csv () df.columns.tolist() #获取所有的列名字 df.dtypes.value_counts() # 有多少数据类型统计 Select_dtypes 连续数据和离散数据的 分拆 str_list = df.select_dty...

2020-01-07 15:40:17

阅读数 21

评论数 0

原创 机器学习的评价方法 Recall Metric ROC

分类问题 1.1 混淆矩阵(Confusion Matrix) 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。 真正(True Positive , TP):被模型预测为正的正样本。 假正(False Positive , FP):被模型预测为正的负样本。 假负(False Nega...

2020-01-06 16:49:31

阅读数 6

评论数 0

原创 遍历文件夹 并 copy 文件 程序

import os import sys import time from shutil import Error from shutil import copystat from shutil import copy2 图片所处的绝对路径,其中r表示去掉python的内部转义 PicPath =...

2019-12-27 15:16:22

阅读数 11

评论数 0

原创 遍历文件夹读取JPG文件,并处理 短横线,书横线

import os import imutils import cv2 import pytesseract import re def get_text(gray): # get page number information from the head, then fill it by 2...

2019-12-27 15:12:31

阅读数 6

评论数 0

原创 使用sklearn的cross_val_score 迭代 寻找K-means 参数

from sklearn import datasets #自带数据集 from sklearn.model_selection import train_test_split,cross_val_score #划分数据 交叉验证 from sklearn.neighbors import KNe...

2019-12-14 22:28:40

阅读数 8

评论数 0

原创 特征数据清洗 编码 标准化

特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。 另外有些特征之间高度相关,在其中一个特征提供了足够的信息之后,与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特...

2019-12-13 14:43:20

阅读数 18

评论数 0

原创 机器学习模型 特征选择 方法汇总 线性,随机森林,

特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“数据和特征决定了机...

2019-12-13 14:18:36

阅读数 9

评论数 0

原创 重要 线性回归的特征选择 根据 P值, SelectKBest(识别哪些feature选中), SelectPercentile 迭代选择

在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。 sklearn中的单变量选择法 单变量选择法的主要思路是根据某些统计检验的方法分别对每个变量进行...

2019-12-13 14:07:46

阅读数 60

评论数 0

原创 线性回归的特征筛选方法

https://zhuanlan.zhihu.com/p/61224180 在特征选择中,最适合在探索阶段使用的就是过滤式的方法,比如方差阈值法和单变量选择法。在上一篇文章中我们介绍了如何在sklearn中使用方差阈值法,那么今天我们就进一步介绍更加实用、有效的单变量选择法。 sklearn中的单...

2019-12-13 00:08:53

阅读数 15

评论数 0

转载 回归 特征 选择 方法

作者:Data Insights 链接:https://zhuanlan.zhihu.com/p/61223950 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 一、特征选择的重要性 机器学习过程中,特征选择是非常重要的一步。可以说,选到了合适的特征,那么模型的...

2019-12-12 23:59:37

阅读数 10

评论数 0

原创 回归模型 中 特征 重要性 分析

1.树模型,建立好模型以后,看那个属性里根节点越近则越重要。模型会自带一些输出重要属性的方法。 2.线性模型,模型一般可以直接输出参数,参数越大越重要。 3.利用互信息等类似的方法可以做,sklearn有,scipy里面也有。 l1正则,可以观察训练完毕后参数为零的特征,删除掉就可以。模型自带。...

2019-12-12 23:54:21

阅读数 31

评论数 0

原创 线性回归变量 正则化 模型的保存和加载

回归问题的判定 目标值为连续性的值(小数) 期末成绩= 0.7考试成绩+0.3平时成绩 西瓜好坏 = 0.2色泽+0.5根 + 0.3敲声 z这是分类问题 找关系。找到特征和最终结果的关系程度找到权重 y =kx+b +b 是一种偏置。是为了当特征只有一个时也能通用 多个特征: k1房子面积+k...

2019-12-12 23:17:15

阅读数 7

评论数 0

原创 如何看待印度人成为谷歌新CEO

2019-12-12 22:23:01

阅读数 4

评论数 0

原创 boston 房价 线性回归

-- encoding:utf-8 -- from sklearn import datasets from sklearn.model_selection import train_test_split #原文中cross_validation已过时改为model_selection from ...

2019-12-12 22:08:24

阅读数 0

评论数 0

原创 线性回归 模型的评价方法 MSE, MAE,R2

回归模型的评价 在sklearn中包含四种评价尺度,分别为 mean_squared_error、 mean_absolute_error、 explained_variance_score r2_score【2】。 mean_absolute_error:平均绝对误差(Mean Absolute...

2019-12-12 22:02:42

阅读数 16

评论数 0

原创 housing 机器学习 预测 线性回归 随机森林

import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib import numpy as np from sklearn.model_selection import cross...

2019-12-12 21:55:22

阅读数 14

评论数 0

原创 SQL 查询

查询数据(SELECT)(重点/掌握) 基本查询语句的语法 select * from 表名;—默认查询所有字段的数据 select 字段1,字段2,字段3 from 表名; —查询指定的字段的数据 DISTINCT —去除掉重复的关键字 可以在查询的时候进行运算 SELECT username,...

2019-12-12 21:32:15

阅读数 3

评论数 0

原创 随机森林 Iris 特征重要性

随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中,与随机森林算法相关的函数都位于集成算法模块ensemble中,相关的算法函数包括随机森林算法(RandomFore...

2019-12-12 14:40:09

阅读数 26

评论数 0

原创 python 保存 excel file IPA data

import pandas import matplotlib.pyplot as plt data = pandas.read_excel(‘IPA2_hulkDE.xlsx’) print(data.columns) ParameterList =[‘TOPOFIMAGE_DEVIATION’...

2019-12-12 11:16:04

阅读数 4

评论数 0

转载 使用NLP从文章中自动提取关键字

运用场景: call centre 数据的关键字提取,从而根据关键字归类为部件相关类(ADF,Engine, FB,boot up,duplex issue etc)和流程相关类(install issue, print issue, fax issue etc.。 在研究和新闻文章中,关键词...

2019-12-10 15:32:02

阅读数 27

评论数 0

原创 python 回归和决策树 数据验证和参数调整

cross_val_score, cv=10, 随机分成10个子集 ​from sklearn.model_selection import cross_val_score scores = cross_val_score(tree_reg, housing_prepared, housing_...

2019-12-09 11:34:33

阅读数 9

评论数 0

原创 Python使用 sklearn pipeline进行数据清洗

setup pipeline from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler num_pipeline = Pipeline([ (‘imputer’, Imputer(...

2019-12-08 23:44:05

阅读数 14

评论数 0

原创 Python下数理统计T检验和卡方检验

from scipy import stats 1 sample test x = stats.norm.rvs(loc=5,scale=10, size=50) print(x.mean()) print(stats.ttest_1samp(x, 5.0)) print(stats.ttest_...

2019-12-07 22:31:43

阅读数 12

评论数 0

原创 python 数据预处理

观察数据 housing.info() housing.describe() housing.hist(bins=50, figsize=(20,15)) # 连续数据 plt.show() 离散变量使用value_counts()观察: housing[‘ocean_proximity’]...

2019-12-06 22:48:46

阅读数 14

评论数 0

原创 机器学习数据的标准化(normalization)和归一化

数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。* 从经验上说,归一化是让不...

2019-12-05 14:30:10

阅读数 6

评论数 0

原创 协方差矩阵

先讨论下方差的概念和样本方差。图一为标准差,标准差提供了一种衡量数据在特征空间的分布程度。 我们知道无偏估计的样本方差公式可以通过如下方式获得: 但是,方差只能用于解释数据在平行于特征空间轴上的扩展。参考图二中的二维特征空间: 对于这个数据,我们可以用x轴方向计算出方差σ(x,x),用y轴方...

2019-12-05 11:41:28

阅读数 2

评论数 0

原创 PCA主元分析方法描述

主元分析也就是PCA,主要用于数据降维。 转载知乎 https://www.zhihu.com/question/41120789/answer/481966094s 通过去中心化和线性变换,将多维度的特征转换通过投影(坐标转换)成几个主成分特征,这个主成分特征是原来特征的线性变换。 主成分称为 ...

2019-12-05 11:24:19

阅读数 13

评论数 0

转载 在python3下使用OpenCV 抓取摄像头图像提取蓝色

工作中需要对摄像头进行调试, Python平台大大提高调试效率. 从网找到段代码, 可以从摄像头图像中抠出蓝色. import cv2 import numpy as np cap = cv2.VideoCapture(0) for i in range(0, 19): print(cap.ge...

2019-07-02 15:17:52

阅读数 21

评论数 0

转载 HSV色彩空间表和cv2.inRange()的用法

https://blog.csdn.net/a13602955218/article/details/84260237 结合cv2.inRange()可以清晰看到某个颜色区域图像位于图像的什么地方。 用法cv2.inRange(img,low,high),函数会将位于两个区域间的值置为255,位...

2019-06-29 22:47:51

阅读数 29

评论数 0

原创 使用CV2进行视频文件打印页面计数

import cv2 videoCapture = cv2.VideoCapture(‘videos/example_01.mp4’) fps = 30 # 保存视频的帧率 size = (1920, 1080) # 保存视频分辨率的大小 videoWriter = cv2.VideoWrit...

2019-06-26 13:19:06

阅读数 12

评论数 0

转载 python opencv获取视频的总帧数等参数

@python opencv获取视频的总帧数等参数 import cv2 cap=cv2.VideoCapture(path) frames_num=cap.get(7)#get方法参数按顺序对应下表(从0开始编号,比如这里为了获取视频的总帧数,在下表是排第八个的,直接输入对应编号即可 CV_CA...

2019-06-26 13:17:31

阅读数 24

评论数 0

转载 用python简单处理图片(4):图像中的像素访问

这里写自定义目录标题如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 https://www...

2019-05-03 23:02:48

阅读数 17

评论数 0

提示
确定要删除当前文章?
取消 删除