自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 3σ准则判断

3σ准则,判断原理

2023-08-08 13:31:28 77

原创 anaconda历史版本

https://repo.anaconda.com/archive/

2023-07-06 16:35:50 180

原创 1、环境搭建

anaconda:集成好了数据分析和机器学习的所有环境jupyter:是anaconda提供的一个基于浏览器的可视化开发环境

2022-04-11 20:03:23 1257

原创 4划分0_1标签Analysis

1、用kmeans对标签进行分类import pandas as pdfrom sklearn.cluster import KMeans from matplotlib import pyplot as pltimport numpy as np2、path = 'C:/Users/S/Desktop/其他案例数据/UF_RATIO(EAC1)/data/4CleanData--csv大宽表+0-1标签/csvAll.csv'df = pd.read_csv(path,enc..

2022-04-06 13:25:41 460

原创 3、多csv宽表联合整理成csv大宽表

目录1、导入包2、导入文件路径知识点:1、导入包import numpy as npimport pandas as pdimport os2、导入文件路径lujing="C:/Users/S/Desktop/不同数据集U_RATIO(BP)/3CleanData--csv整理宽表"lujing1="C:/Users/S/Desktop/不同数据集U_RATIO(BP)/3CleanData--csv整理宽表/2.csv"df1=pd.read_csv(l

2022-04-06 10:33:49 145

原创 2、多csv文件转换为宽表

1、导入包import numpy as npimport pandas as pdimport osimport csvsuccessDataPath = "C:/Users/S/Desktop/不同数据集U_RATIO(BP)/csv/"csvColumn = ['LOT','WAFER','END_TIME','AD0100_RATIO','PROCESS','STEP','EFFECT','REASON']for root,dirs,files in os.walk(

2022-04-04 20:38:16 120

原创 1、json文件转csv文件

目录单个json转csv文件并保存多个json文件转CSV文件并保存知识点:json读操作split(".")[0]表示分割".",[0]表示取第一个单个json转csv文件并保存import jsonimport pandas as pdjson1="C:/Users/S/Desktop/不同数据集U_RATIO(BP)/json/1.json"with open(json1, 'r', encoding='UTF-8') as file_in:

2022-04-03 17:26:01 13682 2

原创 特征选择----皮尔逊(Pearson)相关系数

1、皮尔逊(Pearson)相关系数1、协方差能完美的解释两个变量之间相关的方向,但在解释强度上却不太行,举个例子:每个变量都是有量纲的,这里假设变量x的量纲为距离,可以是米,也可以是千米,甚至可以是光年,针对协方差的量纲问题,统一除以同样的量纲就可以搞定。正态分布标准化需要除以标准偏差,标准偏差的量纲与变量一致,这样就可以消除量纲了。让每一个变量x与变量x的均值的差,都除以x的标准偏差Sx,变量y也同理,则有以下关系式:(该关系式即为皮尔逊相关系数,简称相关系数,可以认为是协方差的标准化)上图中,

2022-03-21 17:33:21 10567 1

原创 特征选择:嵌入法---《菜菜机器学习笔记》

嵌入法:1、概念嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估,找出对模型建立最有用的特征。因此相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力

2022-03-21 15:56:47 3034

原创 卡方过滤实战(从sklearn下载鸢尾花数据集,把数据集整合成宽表)

#导入鸢尾花数据集, sklearn中的数据为array格式,使用pd.DataFrame(X).to_csv把array文件保存为csv文件import pandas as pdfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2import osfrom sklearn.datasets import load_irisiris_dataset = load_

2022-03-17 16:38:51 2043

转载 Linux常用命令2

目录一、基本命令1.1 关机和重启1.2 帮助命令二、目录操作命令2.1 目录切换 cd2.2 目录查看 ls [-al]2.3 目录操作【增,删,改,查】2.3.1创建目录【增】 mkdir2.3.2删除目录或文件【删】rm2.3.3目录修改【改】mv 和 cp2.3.4搜索目录【查】find三、文件操作命令3.1 文件操作【增,删,改,查】3.1.1新建文件【增】touch3.1.2 删除文件 【删】 rm3.1.3修改...

2022-03-16 08:53:16 80

转载 Hxbase shell 基本操作命令

import happybaseconnection = happybase.Connection('hostname')table = connection.table('table-name')table.put(b'row-key', {b'family:qual1': b'value1', b'family:qual2': b'value2'})row = table.row(b'row-key')print(row[b'family:.

2022-03-14 16:09:42 3019

原创 linux系统基本命令

1、 ls:查看当前目录有哪些文件2、 cd可以进入和返回文件cd 目录名: 进入目录文件夹cd .. :cd加两个点号表示返回上一层命令(返回键)3、pwd打印当前工作目录4、 cp 进行文件和文件夹复制cp 文件夹/文件名 新文件夹/文件名5、 head命令:查看文件的开头或者结尾head -n 2 文件名 :查看文件前两行tail -n 2 文件名 :查看文件后两行6、 find命令:查找过滤文件find *.txt :查找t...

2022-03-14 10:23:31 1034

原创 删除不用的列标签

1、原先的label标签,可以看出有的标签名不止占一行,这样的标签在后期做训练时会出错,而且还有一些列标签对模型判断没有作用,也给删除掉。标签文件名代码import pandas as pdimport oslineData = []dirFile = 'C:/Users/S/Desktop/B4VM/data/Label/RawCvdLabel'for root,dirs,files in os.walk(dirFile): for file in .

2022-03-09 08:57:08 304

原创 特征工程--方差过滤《菜菜机器学习笔记》

特征工程概念:特征工程将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法来实现。特征工程的目的:降低计算成本,提升模型上限特征选择 feature_selection特征提取、特征创造、特征选择特征工程的第一步:理解业务四种选择特征的方法:过滤法、嵌入法、包装法和降维算法一、Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分

2022-03-02 08:47:30 1325

原创 数据预处理---处理分类型特征(编码与哑变量)与连续性特征(二值化与分段)----《菜菜机器学习笔记》

在机器学习中,大多数算法等都只能够处理数值型数据,不能处理文字。在sklearn当中,除了专用来处理文字的算法,其他算法在fit的时候全部要求输入数组或矩阵,也不能够导入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的: 学历的取值可以是 [“小学”,“初中”,“高中”,“大学”] 付费方式可能包含 [“支付宝”,“现金”,“微信”] …在这种情况下,为了让数据...

2022-03-01 13:54:27 1636

原创 数据预处理--缺失值填补《菜菜学习笔记》

机器学习和数据挖掘中所使用的数据,永远不可能是完美的。很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的情况。因此,数据预处理中非常重要的一项就是处理缺失值。我们采用从泰坦尼克号提取出来的数据,这个数据有三个特征,如下:Age 数值型 Sex 字符型 Embarked 字符型import pandas as pd#index_col=0是因为原数据中第1列本就是索引data = pd.read_csv

2022-02-28 15:56:54 2289

原创 数据预处理--归一化和标准化《菜菜机器学习sklearn笔记》

引言:数据不给力,再高级的机器算法都没用。sklearn中提供的数据都是比较完美的数据集;而在现实的数据集中,比平时学的数据集要差十万八千里。因此,我们有必要学习一下建模之前的流程,数据预处理和特征工程。数据预处理和特征工程数据挖掘的五大流程:1.获取数据2.数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。 可能面对的问题有:数据类型不同(比如有的是文字,有的是数字,有的含时间序列,有的连续, 有的...

2022-02-28 13:34:49 1530

原创 机器学习算法----原理总结

总结:线性回归是一种评估自变量X与因变量Y之间的关系>画出的图像是直的(简单线性回归是直线,多元线性回归是超平面)多元线性回归原理:

2022-02-24 17:39:50 2451

翻译 XGBoost 、逻辑回归、随机森林 模型实战对比

1、引言在XGBoost基本原理博文中我们介绍了XGBoost的基本原理,本篇博文我们将介绍XGBoost的基本使用方法,作为新手的学习参考。本文使用kaggle上的泰坦尼克数据集,只是对XGBoost的使用做一个简单的描述,若想知道Kaggle的整个竞赛流程以及在竞赛中如何使用XGBoost进行预测的话,关注本博客,以后会陆续推出与竞赛内容相关的博客及代码。kaggle的泰坦尼克的数据集分为训练数据和测试数据,测试数据与训练数据的区别在于测试数据缺少‘survival’列,即为我们需要预测的列,数

2022-02-23 15:48:52 7609

原创 机器学习---集成学习---XGboost

1. GBDT算法原理XGBoost实现的是一种通用的Tree Boosting算法,此算法的一个代表为梯度提升决策树(Gradient Boosting Decision Tree, GBDT)GBDT的原理是:>首先使用训练集和样本真值(即标准答案)训练一棵树,然后使用这棵树预测训练集,得到每个样本的预测值,由于预测值与真值存在偏差,所以二者相减可以得到“残差”。>接下来训练第二棵树,此时不再使用真值,而是使用残差作为标准答案。两棵树训练完成后,可以再次得到每个样本的残差,然

2022-02-23 15:14:59 505

转载 机器学习---集成学习---GBDT算法

1. 解释一下GBDT算法的过程GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。1.1 Boosting思想Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各

2022-02-23 10:51:09 848

翻译 机器学习----集成学习----随机森林

决策树1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法。...

2022-02-22 16:31:21 1425

翻译 机器学习---集成学习----Adaboost

集成学习集成学习什么是集成学习 弱学习和强学习 集成学习有效的前提 集成学习分类 AdaBoost什么是集成学习所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。弱学习和强学习准确率仅比随机猜测略高的学习算法称为弱学习算法;识别准确率很高并能在多项式时间内完成的学习算法称为强学习算法。集成学习有效的前提1.分类器的精度,每个弱分类器的分类精度必须大于0.5。2.弱分类器之间应该具有差异性,否则集成效果不是很好

2022-02-22 14:50:07 1866

翻译 机器学习-----回归树

分类树与回归树分类树用于分类问题。分类决策树在选取划分点,用信息熵、信息增益、或者信息增益率、或者基尼系数为标准。Classification tree analysis is when the predicted outcome is the class to which the data belongs.回归决策树用于处理输出为连续型的数据。回归决策树在选取划分点,就希望划分的两个分支的误差越小越好。Regression tree analysis is when the predicte

2022-02-22 10:10:31 2352

转载 机器学习---决策树(ID3,C5.0,CART)

决策树学习与总结 (ID3, C4.5, C5.0, CART)1. 什么是决策树2. 决策树介绍3. ID3 算法 信息熵 信息增益 缺点4. C4.5算法5. C5.0算法6. CART算法 基尼指数 Gini指标7. 连续属性离散化8. 过拟合的解决方案9. 例子1 - 脊椎动物分类10. 例子2 1. 准备数据及读取 2. 决策树的特征向量化 3. 决策树训练 4. 决策树可视化 5 预测结果...

2022-02-21 15:27:03 5055

原创 逻辑回归原理

逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类方法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际应用中非常广泛。1、逻辑回归的应用场景>广告点击率>是否为垃圾邮件>是否患病>金融诈骗>虚假账号看到上面的例子,我们可以发现其中的特点,那就是属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。2、逻辑回归的原理想要掌握逻辑回归就必须要掌握两点:逻辑回

2022-02-18 11:37:18 4856

原创 线性回归原理----简单线性回归、多元线性回归

回归分析是用来评估变量之间关系的统计过程。用来解释自变量X与因变量Y的关系。即当自变量X发生改变时,因变量Y会如何发生改变。线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系,当只有一个自变量时,成为简单线性回归,当具有多个变量时,称为多元线性回归。线性关系的理解:>画出来的图像是直的(简单线性回归是直线,多元线性回归是超平面)>每个自变量的最高次项为1拟合是指构建一种算法,使得该算法能够符合真实的数据。从机器学习角度讲,线性回归就是要构建一个线性函

2022-02-17 16:28:33 6902 1

原创 sklearn库主要模块功能简介

sklearn,全称scikit-learn,是python中的机器学习库,建立在numpy、scipy、matplotlib等数据科学包的基础之上,涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节,功能十分强大,目前sklearn版本是0.23。与深度学习库存在pytorch、TensorFlow等多种框架可选不同,sklearn是python中传统机器学习的首选库,不存在其他竞争者。本文将分别围绕下图中各大子模块进行分别介绍,不会面面俱到、但求提纲挈领

2022-02-16 09:07:30 6290

原创 机器学习python库--seaborn

seaborn简介seaborn是基于matplotlib的数据可视化库。它在matplotlib的基础上,进行了更高级的封装,从而使得绘图更加容易,不需要经过大量的调整,就能使图像变得精致。seaborn的几个鲜明特点如下:>绘图接口更加集成,可以通过少量的参数设置实现大量封装绘图。>多数图表具有统计学含义,例如分布、关系、统计、回归等>对pandas和numpy数据类型支持非常友好>导入seabornseaborn的依赖库为numpy、pandas、m

2022-02-15 15:27:58 16318

原创 机器学习6 --交叉验证和网格搜索

1、什么是交叉验证?就是将拿到的训练数据,分成训练集和验证集,比如将一份数据分成4份,其中一份作为验证集。然后经过4次测试,每次都更更换不同的验证集。即得到4次模型的结果,取平均值作为最终结果。2、为什么要做交叉验证?交叉验证的目的:为了让被评估的模型更加准确可信。问题:这个只是让被评估的模型更加准确可信,那么怎么选择或者调优参数呢?3、网格搜索网格搜索(Grid Search)名字非常大气,但是用简答的话来说就是你手动的给出一个模型中你想要改动的所用的参数,程序自动的帮你使

2022-02-14 17:34:12 2294

原创 5.大数据、机器学习、数据挖掘、深度学习的区别和联系?

大数据:大数据相当于传统数据的概念,大数据的大体现在数量大、种类多、产生快。数据挖掘:从数据中提取潜在的、有价值的信息。这是一个比较宽泛的概念,使用机器学习算法对大数据进行分析,找到有用的信息就是数据挖掘。机器学习:机器学习是让计算机能够自动地从某些数据中总结规律,并得出某种预测模型,进而利用该模型对未知数据进行预测的方法。深度学习:深度学习是一种比较火的机器学习方法,是基于神经网络发展起来的。...

2022-02-14 17:23:12 1184

原创 4.一个完整的机器学习项目步骤

完整的机器学习项目主要步骤:1、明确问题 首先要划定问题:监督或者非监督,还是强化学习?这是个分类任务、回归任务还是其他的?2、获取数据 机器学习结果的上限由数据决定,而算法只是尽可能地接近这个上限。数据要有代表性。涉及到numpy、pandas3、特征预处理与特征选择良好的数据要能够提取良好的特征才能真正发挥数据的效力。特征预处理、数据清洗是很关键的步骤,往往能够使算法的效果和性能得到显著提升,归一化、离散化、因子化、缺失值处理等数据处理手段。特征选...

2022-02-14 16:24:28 1097

原创 3.anaconda的基本命令

本文主要记录以下anaconda常用的命令,包括python虚拟环境管理,包管理1.环境查看#获取conda版本信息: >conda info#获取本机的所有python环境: >conda info -e2.虚拟环境管理#创建python虚拟环境,指定的python>conda create --name env_name python3.7#激活某个环境>conda activate enva_name#退出某个环境>co

2022-02-14 14:45:35 151

原创 2.机器学习小记录--机器学习常用的python包

1、numpy的介绍numpy是python语言的一个第三方库,其支持大量高维度数组和矩阵运算(二位数组),此外numpy也针对数组运算提供了大量的数学函数。机器学习涉及到大量对数组的变换和运算,numpy就成了必不可少的工具之一。2、导入numpy库,并命名为npimport numpy as np3、如何创建通过列表创建一维数组:np.array([1,2,3])通过列表创建一个二维数组:np.array([(1,2,3),(4,5,6)])创建全为0的二维数组:

2022-02-12 21:23:56 1959

原创 机器学习记录1-机器学习概述

机器学习小记录

2022-02-11 15:09:02 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除