自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 9.1.6 DBSCAN聚类算法————机器学习实战第二版

一、工作原理对于每个实例,该算法都会计算在它一小段距离内 ε\varepsilonε 内有多少个实例。该区域称为实例的 ε−\varepsilon-ε− 邻域。如果一个实例在其 ε\varepsilonε 邻域内至少包含 min_samples 个实例(包含自身),则该实例为核心实例。核心实例附近的所有实例都属于同一集群。这个邻域可能包括其他核心实例。因此,一长串相邻的核心实例形成一个集群。任何不是核心实例且邻居中没有核心实例的实例都被视为异常二、参数sklearn中参数详解:详解两

2020-11-18 00:29:01 115

原创 9.1.3 使用聚类进行图像分割————机器学习实战第二版

文章目录一、简介二、原图三、步骤分析四、代码1. 导包2.读取图像3. 裁剪图像并重置矩阵4. 聚类1.难点2. 代码一、简介图像分割是将图像分成多个分割的任务。在语义分割中,属于同一对象类型的所有像素均被分配给同一像素。这里做一个简单的颜色分割。如果像素具有相似的颜色,就将它们分配给同一分割。二、原图原图:我家小可爱的魔方,xixixi三、步骤分析读取图像对图像矩阵进行KMeans聚类输出图像并观察结果四、代码1. 导包from matplotlib.image impor

2020-11-16 14:23:45 31

原创 聚类

文章目录一、概述1.数据挖掘对聚类分析方法的要求2. 聚类在数据挖掘中的典型应用二、性能度量1. 外部指标2. 内部指标三、距离计算四、原型聚类1.K均值算法2. 学习向量量化(LVQ)3. 高斯混合聚类五、密度聚类1. DBSCAN(Density-Based Clustering)六、层次聚类1. AGNES一、概述1.数据挖掘对聚类分析方法的要求可伸缩性:指算法无论对于小数据还是发数据都应该有效。具有处理不同类型属性的能力:即可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以

2020-11-14 22:07:21 21

原创 即约分数(最大公约数)

问题描述如果一个分数的分子和分母的最大公约数是 1,这个分数称为既约分数。例如,34 , 52 , 18 , 71 都是既约分数。请问,有多少个既约分数,分子和分母都是 1 到 2020 之间的整数(包括 1 和 2020)?答案提交这是一道结果填空题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数,填写多余的内容将无法得分。答案2481215代码#include<bits/stdc++.h>using namespace std;long l

2020-11-12 16:32:02 45

原创 解谜游戏——第十届蓝桥杯b组c++决赛题目H

题目描述小明正在玩一款解谜游戏,谜题由 24 根塑料棒组成,其中黄色塑料棒 4 根,红色 8 根,绿色 12 根 (后面用 Y 表示黄色、R 表示红色、G 表示绿色)。初始时这些塑料棒排成三圈,如上图所示,外圈 12 根,中圈 8 根,内圈 4 根。小明可以进行三种操作:将三圈塑料棒都顺时针旋转一个单位。例如当前外圈从 0 点位置开始,顺时针依次是 YRYGRYGRGGGG,中圈是 RGRGGRRY,内圈是 GGGR。那么顺时针旋转一次之后,外圈、中圈、内圈依次变为:GYRYGRYGRGG

2020-11-12 00:32:21 2252 6

原创 素数求和

问题描述输入一个自然数n,求小于等于n的素数之和样例输入2样例输出2数据规模和约定测试样例保证 2 <= n <= 2,000,000思路首先将 2-n 的数全部标记为素数由小到大遍历每一个标记为素数的数字,将该素数的倍数全部置为标记为非素数最后求和详细见代码代码#include<bits/stdc++.h>using namespace std;const int maxn = 2e7 + 50;int flag[maxn],n;long lon

2020-11-11 14:44:06 41

转载 c_str()

语法:const char c_str();c_str()函数返回一个指向正规C字符串的指针常量, 内容与本string串相同.这是为了与c语言兼容,在c语言中没有string类型,故必须通过string类对象的成员函数c_str()把string 对象转换成c中的字符串样式。注意:一定要使用strcpy()函数 等来操作方法c_str()返回的指针比如:最好不要这样:char c;string s=“1234”;c = s.c_str(); //c最后指向的内容是垃圾,因为s对象被析构,其

2020-11-10 12:55:34 48

原创 第九届蓝桥杯国赛 调手表(BFS)

题目描述小明买了块高端大气上档次的电子手表,他正准备调时间呢。在 M78 星云,时间的计量单位和地球上不同,M78 星云的一个小时有 n 分钟。大家都知道,手表只有一个按钮可以把当前的数加一。在调分钟的时候,如果当前显示的数是 0 ,那么按一下按钮就会变成 1,再按一次变成 2 。如果当前的数是 n - 1,按一次后会变成 0 。作为强迫症患者,小明一定要把手表的时间调对。如果手表上的时间比当前时间多1,则要按 n - 1 次加一按钮才能调回正确时间。小明想,如果手表可以再添加一个按钮,表示把

2020-11-09 21:32:23 31

原创 优先队列 + BFS

题目描述乍一看是BFS最短路径,但仔细思考下,发现最短路径不一定是时间最短的,所以需要求最短时间,用优先队列去存储状态。#include<bits/stdc++.h>using namespace std;int n,m,t,vis[105][105];char arr[105][105];int sx,sy,ex,ey,ans ;struct node{ int x,y,num; friend bool operator < (node x,node y){

2020-11-08 18:20:25 12

原创 DataFrame.groupby()用法

1. 函数定义DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)by : 接收映射、函数、标签或标签列表;用于确定聚合的组axis : 接收 0/1;用于表示沿行(0)或列(1)分割。level : 接收int、级别名称或序列,默认为None;如果轴是一个多索引(层次化),则按一个或多个特定级别分组as_index :

2020-10-31 19:35:34 156

原创 六、 集成学习(下)

文章目录一、 结合策略1. 平均法2. 投票法3. 注意4. 学习法----Stacking一、 结合策略1. 平均法对于数值型输出,最常见的结合策略是使用平均法简单平均法h(x)为基学习器的输出加权平均法基学习器的权重一般是根据训练数据得到的,所以不完全可靠,对于规模较大的集成学习来说,容易造成过拟合,所以加权平均不一定优于简单平均。一般而言,在基学习器性能相差较大时,选择加权平均,基学习器性能类似时,选择简单平均。2. 投票法绝对多数投票法得票最多的类别要超过50%,否.

2020-10-26 21:20:56 15

原创 OneHotEncoder

原数据:data中的division属性为无顺序字符串,转独热编码。步骤建立编码器训练并转换原数据删除要转独热编码的属性原数据合并转换后的数据1. 建立编码器from sklearn.preprocessing import LabelEncoder,OneHotEncoderdivision_ohe = OneHotEncoder()2. 训练并转换df = division_ohe.fit_transform(data['division'].values.reshape(

2020-10-25 14:02:18 69

原创 LabelEncoder

一、概述在使用回归模型和机器学习模型时,所有考察数据都是数值更容易得到更好的结果。因为都是基于数学函数方法的,所以当数据集中出现类别数据时,此时数据是不理想的,不能用数学方法处理它们。例如处理性别属性时,将男和女两个性别数据用0和1进行代替。二、代码1. LabelEncoderlabel_le = LabelEncoder()data['salary'] = label_le.fit_transform(data['salary'])#对数据集中的salary属性进行labelencode

2020-10-25 11:41:22 18

原创 pandas-profiling数据分析预览

导入包import pandas as pdimport pandas_profiling生成报告#data为DataFrame类型数据pandas_profiling.ProFileReport(data)导出报告prf = pandas_profiling.ProfileReport(data)prf.to_file('report.html')报告详细内容1. 总缆首先是总览 Overview,包含数据集的一些信息:行数列数数据缺失率占用内存大小属性值的类型的统

2020-10-25 11:18:02 55

原创 五、运输层

一、运输层协议概述1. 进程间的通信从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最底层。当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时,只有位于网络边缘部分的主机的协议栈才有运输层,而网络核心部分中的路由器在转发分组时都只用剩下三层功能。2. 网络层和运输层的区别3. 运输层作用在一台主机中经常有多个应用进程同时分别和另一台主机中的多个应用进程通信。和表明...

2020-10-22 22:24:28 53

原创 六、集成学习(上)

一、 个体与集成集成学习:通过构建并结合多个学习器来完成任务,也称为多分类器系统。基于委员会的学习1. 集成的方式同质集成:集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”异质集成:个体学习器由不同的学习算法生成。不存在“基学习算法”2. 如何得到好的集成:个体学习器“好而不同”3. 集成学习算法二、BoostingBoosting是一族可将弱学习器提升为强学习器的算法,它的思想起源于Valiant提出的PAC(Probably Approximate.

2020-10-20 16:56:43 21

原创 图像增强——灰度直方图

一、灰度直方图表示图像中具有某种灰度级的像素的个数,反映了图像中每种灰度级出现的频率。它是图像最基本的统计特征。横坐标:灰度级纵坐标:该灰度级出现的个数二、直方图性质只反映该图像中不同灰度值出现的次数,而未反映某一灰度值像素所在位置。丢失了位置信息。图像与直方图之间是多对一的映射关系。由于直方图是对具有相同灰度值的像素统计得到的,因此,一副图像各子区的直方图之和等于该图像全图的直方图。三、直方图均衡化经变换后得到的新直方图不很平坦,但比原始图像的直方图平坦的多,扩展了动态范围

2020-10-20 10:31:58 20

原创 四、IPv6

一、IPv6的基本首部二、IPv6的地址

2020-10-18 22:08:55 13

原创 四、互联网的路由选择协议

文章目录一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、 内部网关协议RIP1. 工作原理2. RIP协议的三个特点3. 距离向量算法三、内部网关协议OSPF1. OSPF协议的基本特点2. 三个要点四、外部网关协议BGP五、路由器的构成一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、 内部网关协议RIP路由选择协议RIP是内部网关协议IGP中最先得到广泛使用的协议1. 工作原理RIP是一种分布式的、基于距离向量的路由选择协议。RIP协议要求网

2020-10-18 21:47:31 21

原创 四、网际控制报文协议ICMP

一、ICMP报文的种类1. 概述目的:为了更有效的转发IP数据报和提高交付成功的机会,在网际层使用了网际控制报文协议ICMPICMP允许主机或路由器报告差错情况和提供有关异常情况的报告。但ICMP不是高层协议(因为ICMP报文是装在IP数据报中,作为其中的数据部分),而是IP层的协议。2. ICMP报文的格式3. ICMP报文的种类ICMP报文的种类有多种,即ICMP差错报告报文(例如在路由器丢弃分组后向源站发送ICMP差错报告,不需要回复,单向的)和ICMP询问报文(询问其他站或路由器

2020-10-18 20:39:54 17

原创 1210.连号区间数

题目描述解析:链接因为是从1~N的排列,可以枚举两端的位置,找出选取序列的最大值和最小值,如果最大值和最小值的差等于两端位置之差则ans++,三层循环的话会超时#include<bits/stdc++.h>using namespace std;int n,a[10005],ans = 0,maxn,minn,j;int main(){ //freopen("a.txt","r",stdin); scanf("%d",&n); for(int i = 0;i&lt

2020-10-15 22:09:05 13

原创 四、划分子网和构造超网

文章目录一、划分子网1、从两级IP地址到三级IP地址2、子网掩码3. 使用子网时分组的转发3. 无分类编址CIDR(构造超网)1. 编制记法2. CIDR地址块3、路由聚合一、划分子网1、从两级IP地址到三级IP地址基本思路:划分子网纯属一个单位内部的事情。单位对外仍然表现为没有划分子网的网络。从主机号借用若干个位作为子网号(subnet-id),而主机号host-id也就相应减少若干位。划分子网后IP地址就成了三级结构。划分子网只是把IP地址的主机号host-id这部分进行划分,而不

2020-10-12 22:14:24 63 2

原创 三、比较检验

文章目录一、概述二、 具体检验方法1. 估计假设精度2. 采样理论基础3. 多次训练/测试的检验 - t检验4. 交叉验证t检验1. 基本思路5. MCNemar检验6.Friedman检验和Nemenyi后续检验一、概述比较检验的重要方法是统计假设检验,它为我们进行学习器性能比较提供了重要依据。统计假设检验:假设检验步骤:带入机器学习:二、 具体检验方法1. 估计假设精度区分两种错误率:errors(h)在何种程度上提供了对errorD(h)的估计?2. 采样理

2020-10-11 22:12:07 40

原创 四、网络层(上)

文章目录一、 网络层提供的两种服务1. 争论二、网际协议IP1. 概述2. 虚拟互连网络1. 虚拟互连网络3. 分类的IP地址(1)IP地址及其表示法(2)IP地址的编制方式(3)点分十进制(4)IP地址的一些重要特点4. IP地址与硬件地址5. 地址解析协议ARP(1) 地址解析协议ARP要点(2)ARP高速缓存的作用(3)使用ARP的四种典型情况6. IP数据报的格式7. IP层转发分组的流程一、 网络层提供的两种服务1. 争论一种观点:让网络负责可靠交付计算机网络应模仿电信网络,使用面

2020-10-10 17:32:34 29

原创 numpy笔记

文章目录属性方法1. arange(起始值,中止值,步长)2. linspace(起始值,中止值,数值个数)3. 向量运算4. 向量筛选5. 矩阵间乘法6. 随机数矩阵7. 矩阵最大值,最小值,求和8. 求最大值,最小值索引9. 矩阵转置10. 截断函数11. 索引12. 循环13. 将矩阵转变为向量14. 向量合并15. 插入新的维度16. 矩阵分割17. copy()属性ndim: 维数shape: 行数和列数size元素个数可以在使用array函数时指定 dtype参数方法1.

2020-10-08 21:11:49 15

原创 pandas过滤数据

DataFrame:原始数据:1、可以通过 DataFrame[ 过滤条件 ] 来进行过滤print( data[ data['fruit_label'] == 1] )2、 注意事项过滤条件可以进行 与或非过滤的条件超过一个时,需要在每个条件的外面加()运算符不能用 and,or,not 而是用 &,|,!print( data[ (data['fruit_name'] == 'apple') & (data['mass'] >= 10

2020-10-07 16:04:12 42

原创 pandas中describe函数详解

describe()函数可以查看DataFrame中连续值数据的基本情况,原数据:data = pd.read_table(path)data.head()使用describe函数之后:data.describe()分析:count:每一列非空值的数量mean: 每一列的平均值std:每一列的标准差min:最小值25%:25%分位数,排序之后排在25%位置的数50%:50%分位数75%:75%分位数max:最大值也可以对单列进行分析data['mass'].des

2020-10-06 21:33:35 364

原创 dataframe中删除某一列或某一行

1. 函数DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)参数含义:labels:要删除的行或列,用列表给出axis:默认为0,指要删除的是行,删除列时需指定axis为1index :直接指定要删除的行,删除多行可以使用列表作为参数columns:直接指定要删除的列,删除多列可以使用列表作为参数inplace: 默认为False,该删除操作不改变原数据;inplace = True时,改变

2020-10-06 19:05:26 497

原创 pandas计算相关系数

pandas计算相关系数在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数1. Pearson相关系数一般用于分析两个连续性变量之间的关系。计算公式如下:2. Spearman秩相关系数Pearson线性相关系数要求连续变量的取值分布服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可以采用Spearman秩相关系数,也称等级相关系数来描述。3. 判定系数判定系数是相关系数的平方,用r2表示;用来衡量回归方程对y的解释程度。例

2020-10-05 21:24:16 120

原创 2. AUC的四种计算方法

1. 定义法POC曲线横轴为FPR:假正例率,纵轴为TPR:真正例率。AUC其实就是ROC曲线下的面积:m为总样本个数2. 排序损失法形式化的看,AUC考虑的是样本预测的排序质量,因此与排序误差有紧密联系。给定 m+ 个正例和m-个反例,令D+和D-分别表示正、反例集合,则排序损失定义为:解释:排序是按照样本被预测成正例的概率由大到小降序排列。理想中的预测是正例都排在反例的前面。但是不一定会是理想的,有可能出现了损失:有的反例出现在了正例的前面,但是要怎样计算这种损失呢?遍历每一个反例

2020-10-05 19:05:58 102

原创 三、关联规则挖掘理论和算法

一、基本概念与解决方法1. 事务数据库交易数据库又称事务数据库,尽管它们英文名词一样,但事务数据库更具有普遍性。一个事务数据库中的关联规则挖掘可以描述如下:设 I = { i1,2,i3...,im}是一个项目集合 ,事务数据库D ={t1,t2,...tn}是由一系列具有唯一标识的TID事务组成。每一个事务ti(i =1,2,...,n)都对应I上的一个子集。2. 定义定义3.1:支持度(集合在 I 中出现的次数)定义3.2:频繁项目集对于项目集I,在事务数据库D中所有满

2020-10-04 22:04:27 135

原创 计算机网络-----习题3-25

题目在上题中的站点A和B在t=0时同时发送了数据帧。当t=255比特时间,A和B同时检测到发生了碰撞,并且在t=255+48=273比特时间完成了干扰信号的传输。A和B在CSMA/CD算法中选择不同的r值退避。假定A和B选择的随机数分别是rA=0和rB=1。试问A和B各在什么时间开始重传其数据帧?A重传的数据帧在什么时间到达B?A重传的数据会不会和B重传的数据再次发生碰撞?B会不会在预定的重传时间停止发送数据?题解...

2020-10-03 15:49:23 252

原创 python使用cv2读取图像

1.读取图像import cv2img = cv2.imread(path)若要是读取图像的灰度图:gray = cv2.imread('/home/kesci/input/weather_image1552/训练集/%d.jpg'%i,cv2.IMREAD_GRAYSCALE)2. 对图像进行裁剪img = cv2.resize(img,(100,128))#第二个参数为尺寸(宽,高)3. 中值滤波#R为滤波器大小,为大于等于3的奇数img = cv2.medianBlur(im

2020-10-01 21:56:15 148

原创 2. 知识发现过程与应用结构

文章目录一、知识发现的基本过程1. 问题定义阶段2. 数据抽取阶段的功能3. 数据预处理阶段的功能4. 数据挖掘阶段的功能5. 知识评估阶段的功能二、数据库中的知识发现处理过程模型1. 阶梯处理过程模型2. 螺旋处理过程模型3. 以用户为中心的处理模型4. 联机KDD模型5. 支持多数据源多知识模式的KDD处理模型三、知识发现软件或工具的发展1. 独立的知识发现软件2. 横向的知识发现工具集3. 纵向的知识发现解决方案四、知识发现项目的过程化管理1. IM1的任务与目标2. IM2的任务与目标3. IM3的

2020-09-28 11:43:14 45

原创 2. 数据预处理

文章目录一、数据预处理的目的1. 数据清理(Data Cleaning)2. 数据集成(Data Integration)3. 数据变换(Data Transformation)4、数据归约5、 总结二、数据清理1、 空缺值的处理(1) 忽略元组(2) 使用同一类所有样本该属性的平均值(3)使用最可能的值2、 噪声数据的处理(1)分箱(Binning)(2) 聚类(Clustering)(3) 回归(Regression)(4)总结3、 不一致数据的处理三、数据集成和数据变换1. 数据集成2. 数据集成需要

2020-09-24 22:32:20 35

原创 3. 数据链路层

文章目录一、 概述1. 数据链路层使用的信道2. 数据链路层的简单模型二、 使用点对点通信的数据链路层1. 数据链路和帧1. 基本概念2. 数据链路层传输帧2. 三个基本问题1. 封装成帧2. 透明传输1. 概念2. 解决透明传输问题3. 差错检测1. 概念2. 循环冗余检验的原理3. 冗余码的计算三、点对点协议PPP1. 概念2. PPP协议应满足的需求3. PPP协议的组成4. PPP协议的帧格式5. 透明传输问题1. 方法2. 字符填充3. 零比特填充6、 PPP协议的工作状态一、 概述1. 数据

2020-09-23 16:40:44 26

原创 2.数据集划分与性能度量

一、 经验误差与过拟合错误率:把分类错误的样本数占样本总数的比例,如果m个样本中有a个样本分类错误,则错误率E = a/m精度:1- a/m训练误差(经验误差):学习器在训练集上的误差泛化误差:在新样本上的误差过拟合:对训练样本某些特点学的太过,导致泛化性能下降欠拟合:对训练样本的一般性质尚未学好二、 数据集划分1. 留出法留出法直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。常见做法为:1/5 ~ 1/3 样本作为测试集训练/测试集的划分要尽可能保

2020-09-20 20:20:34 29

原创 1. 绪论

1. 基本术语1. 基本概念分类: 预测的值是离散值回归: 预测的值是连续值数据集:所有记录的集合样本或实例:每一条记录特征或属性:单个的特点,一条记录构成一个特征向量维数:一个样本的特征数泛化能力: 学得模型适用于新样本的能力2. 机器学习的学习任务分类根据训练数据是否拥有标记信息可分:监督学习:分类和回归为代表无监督学习:聚类为代表3. 机器学习目标使学得的模型更好的适用于新样本,不是仅仅在训练样本上工作的好2. 假设空间归纳学习有狭义和广义之分,广义学习的归.

2020-09-20 14:35:46 13

原创 2、 物理层

文章目录一、 物理层的基本概念二、 数据通信系统的基础知识1. 数据通信系统的模型2. 有关信道的几个基本概念3. 调制4. 信道的极限容量三、 物理层下面的传输媒体1. 导引型传输型媒体1. 双绞线2. 同轴电缆3. 光缆2. 非引导型传输媒体四、信道复用技术1. 频分复用、时分复用和统计时分复用1. 频分复用2. 时分复用3. 统计时分复用(针对时分复用的资源浪费)2. 波分复用3. 码分复用1. 概念2. 码片序列一、 物理层的基本概念物理层考虑的是怎样参能在连接各种计算机的传输媒体上传输数据比

2020-09-19 18:14:53 40

原创 2. 计算机体系结构

1. 网络协议的三个组成要素语法: 数据与控制信息的结构或格式。语义: 需要发出何种控制信息,完成何种动作以及做出何种响应。同步: 事件实现顺序的详细说明。2. 分层的好处与坏处3. 具有五层协议的体系结构应用层任务是通过应用进程之间的交互来完成指定网络应用。应用层协议定义的是应用进程间通信和交互的规则。将应用层交互的数据单元称为报文。运输层任务是负责向两台主机中进程之间的通信提供通用的数据传输服务。主要使用一下两种协议:传输控制协议TCP:提供面向连接的,可靠的数据传输服务

2020-09-16 21:35:39 854 2

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除