Panpan Wei-CSDN博客

原创软件测试题目

单项选择题：共20小题，每小题1 分，满分20分；请将答案填入题后括号中。1.在软件生命周期的哪一个阶段，软件缺陷修复费用最低（ A ）（A）需求分析（编制产品说明书）（B）设计(C) 编码（D）产品发布2....

2019-10-30 10:53:59 11524

原创欧式距离计算公式

欧式距离也称欧几里得距离，是最常见的距离度量，衡量的是多维空间中两个点之间的绝对距离。也可以理解为：m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离下面是具体的计算公式 ...

2019-06-26 15:06:02 153405 7

原创 ELM和RVFL两种网络的超详细介绍

最近一直在跑程序，在看文章时注意到了这两种网络（ELM和RVFL）。自己查阅资料做了简单的总结。希望在大家学习时帮助到大家。一、RVFL（Random vector functional link network）首先明确一点，在进行分类的时候，N代表输入数据的个数，d代表输入数据的维度，Y代表的是输入数据代表的标签，c表示的是类别个数，L代表隐含层的节点数。例如对于常见的鸢尾花数据集来说...

2019-05-30 17:26:16 12691 2

原创 UCI数据集介绍（论文常用数据集）

UCI数据集作为一个标准测试数据集经常被用来训练机器学习的模型，广泛出现在机器学习的论文中，为了方便大家使用，本人对一些常用的数据集进行了整理。1.UCI数据集介绍UCI数据集网址如下http://archive.ics.uci.edu/ml/index.php例如点开iris数据集，会出现以下信息在下面的Data Set Information介绍了数据集的详细信息，...

2019-04-28 20:19:13 26110 5

原创机器学习算法的决策边界（decision boundary）

逻辑斯谛回归之决策边界logistic回归虽然带着回归两字却和线性回归有很大的区别，线性回归主要用于预测问题，其输出值为连续变量，而logistic回归主要用于分类问题，其输出值为离散值。logistic回归可以用于多元分类问题，也可以用于二元分类问题，但二元分类更为常用。因此本文只介绍二元分类的应用。先来看一些logistic回归的基本东西，logistic回归的假设函数为：，因为.因...

2019-03-28 15:51:14 26293 2

原创 Notepad++安装教程

下载下载地址https://notepad-plus-plus.org/download/v7.html根据自己的需要下载点击下载好的安装包，进行安装在这一步浏览修改下文件夹安装位置选择你需要的功能，安装就可以了，这里是安装好在之后的桌面图标打开之后，在这里面就可以使用Notepad++看程序了...

2019-03-15 10:30:48 64508 6

原创 python学习之——修改Anaconda中jupyter notebook默认工作路径

打开Anaconda Prompt在这里面输入jupyternotebook--generate-config在文件夹下会产生配置文件jupyter_notebook_config.py。在这里会看到annconda的安装路径，然后按照这个路径去找C盘找到.jupyter下的jupyter_notebook_config.py文件在这里由于我安装了，Note...

2019-03-15 10:13:36 889

原创 Annconda安装教程

window7 下安装Anaconda下载Anaconda包这里是annconda的官网下载地址：https://www.anaconda.com/distribution/#windows点进去下载对应的版本就可以了在这里我下载的是windows下的Python3.5版本的。Anaconda3-5.3.0-Windows-x86_64.exe安装安装包下好的话这个安...

2019-03-15 09:11:37 2676

原创数据操作之-dataframe常见操作：取行、列、切片、统计特征值

import numpy as npimport pandas as pdfrom pandas import *from numpy import *data = DataFrame(np.arange(16).reshape(4,4),index = list("ABCD"),columns=list('wxyz'))print dataprint data[0:2] #取前两行数据print len(data ) #求出一共多少行pri.

2020-08-17 15:44:20 2227

原创运行python文件报(unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncated \UXXX

在我写的python读取文件的代码是这样的：with open('C:\Users\Administrator\Desktop\cat.jpg','wb') as f: f.write(resp.content) 执行的时候会报这样的错误原因分析：在windows系统当中读取文件路径可以使用\,但是在python字符串中\有转义的含义，如\t可代表TAB，\n代表换行，所以我们需要采取一些方式使得\不被解读为转义字符。对于此问题，目前有是那种解决的办法：1、在路径前面.

2020-08-13 15:43:31 1019

原创 Python-解决使用 plt.savefig 保存图片时一片空白

当使用如下代码保存使用plt.savefig保存生成的图片时，结果打开生成的图片却是一片空白。例如：# 导入可视化工具包import matplotlib.pyplot as plt%matplotlib inline# 颜色和标签列表colors_list = ['red', 'blue', 'green']labels_list = ['setosa', 'versicolor', 'virginica']# 需要将DataFrame转成ndarray,才能进行 df[pr..

2020-08-11 17:01:59 3402 1

原创 Markdown基本语法总结

简介：Markdown 是一种轻量级标记语言，它用简洁的语法代替排版，使我们专心于码字。它的目标是实现易读易写，成为一种适用于网络的书写语言。同时，Markdown支持嵌入html标签。<u>注意：Markdown使用#、+、*等符号来标记，符号后面必须跟上至少1个空格才有效！</u>Markdown的常用语法1、用#标记在标题开头加上1~6个#，依次代表一级标题、二级标题....六级标题例如：# 一级标题## 二级标题### 三级标...

2020-08-11 11:48:54 629

原创 python学习之——更改Anaconda的默认打开的浏览器

1.首先打开你要设置打开的浏览器。例如谷歌浏览器找到浏览器所在的地址2.在电脑中搜索找到jupyter_notebook_config.py文件。在这里打开此文件可以使用notepad++打开，notepad++安装教程详情见:https://blog.csdn.net/jodie123456/article/details/88567300#comments_129181303.在此文件中找到 c.NotebookApp.browser = ''在下方加上以下语..

2020-08-07 17:25:18 2798

原创关联规则挖掘算法-FP-tree算法

FP-tree两个主要步骤：1. 利用事务数据库中的数据构造FP-tree；2. 从FP-tree中挖掘频繁模式。具体过程：1.扫描数据库一次，得到频繁1-项集。2.把项按支持度递减排序。3.再一次扫描数据库，建立FP-tree。为了方便大家理解，下面附上一个简单的例子。给出一个具体的事务数据库：利用出现的次数计算频繁1-项目集。重新调整事务数据库：（在这里是对于每一个Items进行调整，把支持度高的放在前面）创建根结点和频繁项目表：加入第一个事务（I2

2020-05-22 19:59:13 3167

原创关联规则挖掘算法-Apriori算法

Apriori算法：Apriori算法命名源于算法使用了频繁项集性质的先验（Prior）知识。Apriori算法将发现关联规则的过程分为两个步骤：通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。Apriori的性质：性质1：频繁项集的所有非空子集必为频繁项集。性质2：非频繁项集的超集一定是非频繁的。算法流程：下面介绍一下此算法具体实例：在

2020-05-22 11:40:24 1421

原创自组织特征映射神经网络（SOM）

自组织特征映射神经网络简介：自组织特征映射神经网络（SOM）也是无教师学习网络，主要用于对输入向量进行区域分类。其结构与基本竞争型神经网络很相似。与自组织竞争网络的不同之处：SOM网络不但识别属于区域邻近的区域，还研究输入向量的分布特性和拓扑结构。自组织特征映射神经网络结构 1981年，科霍恩（Kohonen）教授提出一种自组织特征映射网（Self-Organi...

2020-04-01 18:37:40 4604

原创集成学习-Adaboost

Adaboost是集成学习中经典的算法之一。Adaboost算法，英文全称为：Adaptive Boosting，即自适应增强，是一种典型的Boosting算法。对于集成学习，对于给定的数据集，学习到一个较弱的分类器比学习到一个强分类器容易的多，boosting就是从弱学习器出发，反复学习，得到多个弱分类器，最后将这些弱分类器组合成强分类器。Adaboost算法主要的工作是以下两点。1...

2020-01-26 13:44:18 549

原创集成学习-bagging

bagging集成学习中最为经典的算法之一。Bagging算法的基本思想是：自助采样和投票表决Bagging就是，有放回采样m个样本，这件事进行T（T一般是奇数）次，这样就得到了T个不相同的训练集，分别用于取训练一个基学习器。因为样本集的构成不同，这T个基学习器就是不同的。而测试集则用这T次自助采样都没有采到过的那部分样本构成。投票表决：训练出的T个基学习器用于样本预测时，按少数服从多...

2020-01-26 13:32:33 2054

原创集成学习-Stacking

在集成学习中，结合策略也是影响集成模型性能的重要因素之一。传统的结合策略有多数投票、加权平均等。Stacking的本质是设计合适的结合策略，达到比传统结合策略更优的集成效果。首先，Stacking训练一组基学习器，用以参与后续的集成构建。其次，算法将这些学习器的输出和期望的样本标签视为新的学习任务，通过机器学习或其他策略得到一个新的模型，其中模型的输入为基学习器的输出，目的是通过构建...

2020-01-14 11:21:57 1017

原创数据上的关联规则

关联规则挖掘的目标是发现数据项集之间的关联关系或相关关系，是数据挖掘中的一个重要的课题。先简单介绍一下关联规则挖掘中涉及的几个基本概念：定义1：项与项集数据库中不可分割的最小单位信息，称为项目，用符号i表示。项的集合称为项集。设集合I={i1, i2, ..., ik}是项集，I中项目的个数为k，则集合I称为k项集。定义2：事务设I={i1, i2, ..., ik}是由数据库...

2019-12-23 10:10:39 3009

原创在集成学习中能否将随机森林中的基分类器（决策树）替换为线性分类器或K-近邻。

随机森林是属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差，比基分类器的方差小。Bagging所采用的基分类器，最好是本身对样本分布较为敏感的（不稳定的分类器），这样的话Bagging才能发挥本身的性能。对于线性分类器或者K近邻都是较为稳定的分类器，对于这样的分类器本身的方差就比较大，所以他们作为基分类器使用Bagging并不能原有基分类器的基础上获得更好的表现，甚至...

2019-12-18 13:53:38 1938

原创处理不平衡数据的方法

最近在编程序的时候碰到了不平衡的数据，在处理这类数据的时候可以有以下三种方法：第一种：上采样是指把小众类的样本复制多份。第二种：下采样是从多数类样本剔除掉一部分或将大多数的样本选取部分样本第三种：SMOTE方法其中smote方法是上采样中最常用到的方法。他的思想是合成新的少数类的样本，合成的策略是对每一个少数类样本a，从他的最近领域中随机选择一个样本b（这个样本还是少类样本...

2019-12-18 13:29:58 905

原创解决Matlab中不关联的.m文件

第一步：首先下载这个文件链接：https://pan.baidu.com/s/1yy37wJjQlnn-_DKCXp4v6A ，提取码：84bn第二步：启动安装的matlab文件第三步：将下载好的软件进行解压，将解压好的associateFiles.m文件直接拖到matlab的命令行中，然后matlab会出现run()的代码，回车运行这个代码，这时候在当前文件夹下会出现一个后缀为.reg...

2019-12-16 19:34:27 1014

原创 python中迭代器和生成器

1、迭代器（iterator）是一个实现了迭代器协议的对象，python的一些内置数据类型（列表，数组，字符串，字典等）都可以通过for语句进行迭代，我们也可以自己创建一个容器，实现了迭代器协议，可以通过for，next方法进行迭代，在迭代的末尾，会引发stopIteration异常。迭代器有两个基本的方法：iter() 和 next()。2、生成器（generator）是通过yield语句快速生...

2019-11-29 13:01:14 347

原创软件测试的目的

1 以最少的人力、物力、时间找出软件中潜在的各种错误和缺陷，通过修正错误和缺陷提高软件质量，回避潜在的软件错误和缺陷给软件造成的商业风险。2 通过分析测试过程中发现的问题可以帮助发现当前开发工作所采用的软件过程的缺陷，以便进行软件过程改进；同时通过对测试结果的分析整理，可修正软件开发规则，并为软件可靠性分析提供相关的依据。3 评价程序或系统的属性，对软件质量进行度量和评估，以验证软件的质量...

2019-11-29 12:58:54 779

原创数据不足时的处理方法

在机器学习中，绝大部分模型都需要大量的数据进行训练和学习，然而在实际应用中经常会遇到训练不足的问题，比如图像分类，作为计算机视觉最基本的任务之一，其目标是将每一副图像划分到制定类别集合中的一个或者多个类别中，当训练一个图像分类模型时，如果训练样本比较少，该如何处理。一个模型所能提供的信息一般来源于两个方面，一是训练数据中蕴含的信息；二是模型形成过程中（包括构造学习和推理等），人们提供的先验信息...

2019-11-11 20:28:03 5474

原创最全集成学习—多样性度量的方法总结

1.常用的多样性度量的方法大体可分为两种：成对多样性度量和非成对多样性度量，成对得多样性度量首先计算每一对分类器之间的多样性值，然后用其平均值衡量集成系统的多样性；非成对多样性度量直接计算集成系统的多样性值。1.1成对的多样性度量在介绍成对的多样性度量的方法之前，首先引入以下符号：假设有个分类器，和 (i , j=1,2,............,,ij)分别为两个不同...

2019-11-06 15:42:50 6176 7

原创偏差和方差的理解

偏差指的是由所有采样得到的大小为m的训练数据集训练出来的所有模型的输出的平均值和真实模型输出之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型的某个二次函数，但是我们假设模型是一次函数。由偏差所带来的误差通常在训练误差上就能体现出来。方差指的是由采样得到的大小为m的训练集训练出的模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数m过高导致的。比如一共有100...

2019-10-20 14:48:15 613

原创 GBDT、XGBoost、LightGBM的区别和联系

一、Boosting算法首先这三种算法都属于Boosting方法，且GBDT是机器学习算法，XGBoost和LightGBM是GBDT的算法实现。Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有模型中。这个过程是在不断地减小损失函数，使得模型偏差不断降...

2019-10-20 14:34:42 1261

原创卷积神经网络（CNN）的原理知识

参考博文：https://www.cnblogs.com/wj-1314/p/9754072.html后续更新

2019-10-18 21:55:06 240

原创深度学习调参经验总结

下面是在做深度学习的一些经验总结，希望对大家有所帮助，同时欢迎大家批评指正。1.观察Loss胜于观察准确率，Loss设计要合理，对比训练集和验证集的Loss。2.Loss选择。一般来说分类就是Softmax, 回归就是L2的Loss。但是要注意Loss的错误范围。3.Relu可以很好的防止梯度弥散问题，当然最后一层的激活函数千万慎用relu，如果是分类的用softmax。4....

2019-10-18 20:14:19 399

原创机器学习模型参数调节的方法

调参有三种方法：Grid search：用sklearn的model_selection.GridSearchCV().Grid search 是全空间扫描，所以比较慢。Random search: Random search 虽然快，但可能错失空间上的一些重要的点，精度不够。Hyperopt：Hyperopt是一种通过贝叶斯优化来调整参数的工具，该方法较快的速度，并有较好的效果。此外，Hyp...

2019-10-18 20:08:21 2858

原创 ROC曲线的绘制

ROC（Receiver Operating Characteristic）曲线全称是“受试者工作特征”，通常用来衡量一个二分类学习器的好坏。如果一个学习器的ROC曲线能将另一个学习器的ROC曲线完全包住，则说明该学习器的性能优于另一个学习器。在绘制ROC曲线的时候，首先明白ROC曲线的横纵坐标分别代表的是什么。下面介绍下混淆矩阵。在评价二分类器会经常用到的表格。纵坐标：TPR=T...

2019-10-15 21:31:24 4030 1

原创事务的四大特性介绍

事务四大特征：原子性，一致性，隔离性和持久性。1.原子性（Atomicity）一个原子事务要么完整执行，要么干脆不执行。这意味着，工作单元中的每项任务都必须正确执行。如果有任一任务执行失败，则整个工作单元或事务就会被终止。即此前对数据所作的任何修改都将被撤销。如果所有任务都被成功执行，事务就会被提交，即对数据所作的修改将会是永久性的。2.一致性（Consistency）...

2019-10-10 09:56:39 566

原创 MySQL和SQL区别

一、SQL Server基本简介1.1 概述SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点，可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。Microsoft SQL Server 是一个全面的数据库平...

2019-10-09 14:03:45 1228

原创 MYSQL常用语句

# 查看所有的数据库SHOW DATABASES ;# 创建一个数据库CREATE DATABASE k;# 删除一个数据库DROP DATABASE k;# 使用这个数据库USE k;表# 查看所有的表SHOW TABLES ;# 创建一个表CREATE TABLE n(id INT, name VARCHAR(10));CREATE TABLE m(id INT, ...

2019-10-09 13:04:23 207

原创绝对众数

1.已知给定的N个整数A[1…N]存在绝对众数，以最低的时空复杂度计算该绝对众数。(若某众数出现次数多于N/2，则称作绝对众数)。思想：删除数组A中两个不同的数，绝对众数不变。若两个数中有1个是绝对众数，则剩余的N-2个数中，绝对众数仍然大于(N-2)/2；若两个数中没有绝对众数，显然不影响绝对众数。算法描述：记m为候选绝对众数，出现次数为c，初始化为0。遍历数组...

2019-10-07 09:20:46 460

原创取石子游戏

有一堆石子，n个，两个人轮流取1~m个石子，取到最后的一个者赢，请问先手是否有必胜策略。关键：每一次保证自己能取，将终态留给对手。答案：显然，如果n=m+1，那么由于一次最多只能取m个，所以，无论先取者拿走多少个，后取者都能够一次拿走剩余的物品，后者取胜。因此我们发现了如何取胜的法则：如果n=（m+1）r+s，（r为任意自然数，s≤m),那么先取者要拿走s个物品，如果后取者拿走k（≤m...

2019-10-06 17:27:17 958

原创 python中列表，元组，集合，字典的理解

Python的基本数据结构中，包含了列表、元组等一系列数组式数据结构，但各个结构各有不同。因此单独列出来，分析相同与不同。列表（List）列表属于最像数组的数据结构。注意python中没有数组。列表的功能比数组更加强大，所以把它称为“打了激素的数组”。基本结构 [xx,xx,xx,xx]中间以“,”逗号隔开list1 = [1,2,3,4]可以进行增删改查list1....

2019-10-03 16:55:51 594

原创 python中的接口

接口只是定义了一些方法，而没有去实现，多用于程序设计时，只是设计需要有什么样的功能，但是并没有实现任何功能，这些功能需要被另一个类（B）继承后，由类B去实现其中的某个功能或全部功能。在python中接口由抽象类和抽象方法去实现，接口是不能被实例化的，只能被别的类继承去实现相应的功能。方法一：用抽象类和抽象函数实现方法#抽象类加抽象方法就等于面向对象编程中的接口from abc i...

2019-10-03 16:01:29 537