2020年10月__qz_CSDN博客

原创 DataFrame.groupby()用法

1. 函数定义DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)by : 接收映射、函数、标签或标签列表；用于确定聚合的组axis : 接收 0/1；用于表示沿行(0)或列(1)分割。level : 接收int、级别名称或序列，默认为None；如果轴是一个多索引(层次化)，则按一个或多个特定级别分组as_index :

2020-10-31 19:35:34 4712

原创六、集成学习(下)

文章目录一、结合策略1. 平均法2. 投票法3. 注意4. 学习法----Stacking一、结合策略1. 平均法对于数值型输出，最常见的结合策略是使用平均法简单平均法h(x)为基学习器的输出加权平均法基学习器的权重一般是根据训练数据得到的，所以不完全可靠，对于规模较大的集成学习来说，容易造成过拟合，所以加权平均不一定优于简单平均。一般而言，在基学习器性能相差较大时，选择加权平均，基学习器性能类似时，选择简单平均。2. 投票法绝对多数投票法得票最多的类别要超过50%，否.

2020-10-26 21:20:56 541

原创 OneHotEncoder

原数据：data中的division属性为无顺序字符串，转独热编码。步骤建立编码器训练并转换原数据删除要转独热编码的属性原数据合并转换后的数据1. 建立编码器from sklearn.preprocessing import LabelEncoder,OneHotEncoderdivision_ohe = OneHotEncoder()2. 训练并转换df = division_ohe.fit_transform(data['division'].values.reshape(

2020-10-25 14:02:18 354

原创 LabelEncoder

一、概述在使用回归模型和机器学习模型时，所有考察数据都是数值更容易得到更好的结果。因为都是基于数学函数方法的，所以当数据集中出现类别数据时，此时数据是不理想的，不能用数学方法处理它们。例如处理性别属性时，将男和女两个性别数据用0和1进行代替。二、代码1. LabelEncoderlabel_le = LabelEncoder()data['salary'] = label_le.fit_transform(data['salary'])#对数据集中的salary属性进行labelencode

2020-10-25 11:41:22 1822

原创 pandas-profiling数据分析预览

导入包import pandas as pdimport pandas_profiling生成报告#data为DataFrame类型数据pandas_profiling.ProFileReport(data)导出报告prf = pandas_profiling.ProfileReport(data)prf.to_file('report.html')报告详细内容1. 总缆首先是总览 Overview，包含数据集的一些信息：行数列数数据缺失率占用内存大小属性值的类型的统

2020-10-25 11:18:02 264

原创五、运输层

一、运输层协议概述1. 进程间的通信从通信和信息处理的角度看，运输层向它上面的应用层提供通信服务，它属于面向通信部分的最高层，同时也是用户功能中的最底层。当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时，只有位于网络边缘部分的主机的协议栈才有运输层，而网络核心部分中的路由器在转发分组时都只用剩下三层功能。2. 网络层和运输层的区别3. 运输层作用在一台主机中经常有多个应用进程同时分别和另一台主机中的多个应用进程通信。和表明...

2020-10-22 22:24:28 188

原创六、集成学习(上)

一、个体与集成集成学习：通过构建并结合多个学习器来完成任务，也称为多分类器系统。基于委员会的学习1. 集成的方式同质集成：集成中只包含同种类型的“个体学习器”相应的学习算法称为“基学习算法”异质集成:个体学习器由不同的学习算法生成。不存在“基学习算法”2. 如何得到好的集成：个体学习器“好而不同”3. 集成学习算法二、BoostingBoosting是一族可将弱学习器提升为强学习器的算法，它的思想起源于Valiant提出的PAC(Probably Approximate.

2020-10-20 16:56:43 140

原创图像增强——灰度直方图

一、灰度直方图表示图像中具有某种灰度级的像素的个数，反映了图像中每种灰度级出现的频率。它是图像最基本的统计特征。横坐标：灰度级纵坐标：该灰度级出现的个数二、直方图性质只反映该图像中不同灰度值出现的次数，而未反映某一灰度值像素所在位置。丢失了位置信息。图像与直方图之间是多对一的映射关系。由于直方图是对具有相同灰度值的像素统计得到的，因此，一副图像各子区的直方图之和等于该图像全图的直方图。三、直方图均衡化经变换后得到的新直方图不很平坦，但比原始图像的直方图平坦的多，扩展了动态范围

2020-10-20 10:31:58 1648

原创四、IPv6

一、IPv6的基本首部二、IPv6的地址

2020-10-18 22:08:55 84

原创四、互联网的路由选择协议

文章目录一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、内部网关协议RIP1. 工作原理2. RIP协议的三个特点3. 距离向量算法三、内部网关协议OSPF1. OSPF协议的基本特点2. 三个要点四、外部网关协议BGP五、路由器的构成一、有关路由器选择的基本概念1. 理想路由算法2. 自治系统AS二、内部网关协议RIP路由选择协议RIP是内部网关协议IGP中最先得到广泛使用的协议1. 工作原理RIP是一种分布式的、基于距离向量的路由选择协议。RIP协议要求网

2020-10-18 21:47:31 529

原创四、网际控制报文协议ICMP

一、ICMP报文的种类1. 概述目的：为了更有效的转发IP数据报和提高交付成功的机会，在网际层使用了网际控制报文协议ICMPICMP允许主机或路由器报告差错情况和提供有关异常情况的报告。但ICMP不是高层协议(因为ICMP报文是装在IP数据报中，作为其中的数据部分)，而是IP层的协议。2. ICMP报文的格式3. ICMP报文的种类ICMP报文的种类有多种，即ICMP差错报告报文（例如在路由器丢弃分组后向源站发送ICMP差错报告，不需要回复，单向的）和ICMP询问报文（询问其他站或路由器

2020-10-18 20:39:54 379

原创 1210.连号区间数

题目描述解析：链接因为是从1~N的排列，可以枚举两端的位置，找出选取序列的最大值和最小值，如果最大值和最小值的差等于两端位置之差则ans++，三层循环的话会超时#include<bits/stdc++.h>using namespace std;int n,a[10005],ans = 0,maxn,minn,j;int main(){ //freopen("a.txt","r",stdin); scanf("%d",&n); for(int i = 0;i&lt

2020-10-15 22:09:05 115

原创四、划分子网和构造超网

文章目录一、划分子网1、从两级IP地址到三级IP地址2、子网掩码3. 使用子网时分组的转发3. 无分类编址CIDR（构造超网）1. 编制记法2. CIDR地址块3、路由聚合一、划分子网1、从两级IP地址到三级IP地址基本思路:划分子网纯属一个单位内部的事情。单位对外仍然表现为没有划分子网的网络。从主机号借用若干个位作为子网号(subnet-id)，而主机号host-id也就相应减少若干位。划分子网后IP地址就成了三级结构。划分子网只是把IP地址的主机号host-id这部分进行划分，而不

2020-10-12 22:14:24 2523 2

原创三、比较检验

文章目录一、概述二、具体检验方法1. 估计假设精度2. 采样理论基础3. 多次训练/测试的检验 - t检验4. 交叉验证t检验1. 基本思路5. MCNemar检验6.Friedman检验和Nemenyi后续检验一、概述比较检验的重要方法是统计假设检验，它为我们进行学习器性能比较提供了重要依据。统计假设检验：假设检验步骤：带入机器学习：二、具体检验方法1. 估计假设精度区分两种错误率：errors（h）在何种程度上提供了对errorD(h)的估计？2. 采样理

2020-10-11 22:12:07 1673

原创四、网络层（上）

文章目录一、网络层提供的两种服务1. 争论二、网际协议IP1. 概述2. 虚拟互连网络1. 虚拟互连网络3. 分类的IP地址（1）IP地址及其表示法（2）IP地址的编制方式（3）点分十进制（4）IP地址的一些重要特点4. IP地址与硬件地址5. 地址解析协议ARP（1）地址解析协议ARP要点（2）ARP高速缓存的作用（3）使用ARP的四种典型情况6. IP数据报的格式7. IP层转发分组的流程一、网络层提供的两种服务1. 争论一种观点：让网络负责可靠交付计算机网络应模仿电信网络，使用面

2020-10-10 17:32:34 333

原创 numpy笔记

文章目录属性方法1. arange(起始值，中止值，步长)2. linspace(起始值，中止值，数值个数)3. 向量运算4. 向量筛选5. 矩阵间乘法6. 随机数矩阵7. 矩阵最大值，最小值，求和8. 求最大值，最小值索引9. 矩阵转置10. 截断函数11. 索引12. 循环13. 将矩阵转变为向量14. 向量合并15. 插入新的维度16. 矩阵分割17. copy()属性ndim：维数shape：行数和列数size元素个数可以在使用array函数时指定 dtype参数方法1.

2020-10-08 21:11:49 256

原创 pandas过滤数据

DataFrame:原始数据：1、可以通过 DataFrame[ 过滤条件 ] 来进行过滤print( data[ data['fruit_label'] == 1] )2、注意事项过滤条件可以进行与或非过滤的条件超过一个时，需要在每个条件的外面加（）运算符不能用 and,or,not 而是用 &，|，！print( data[ (data['fruit_name'] == 'apple') & (data['mass'] >= 10

2020-10-07 16:04:12 11318

原创 pandas中describe函数详解

describe（）函数可以查看DataFrame中连续值数据的基本情况，原数据：data = pd.read_table(path)data.head()使用describe函数之后：data.describe()分析：count:每一列非空值的数量mean: 每一列的平均值std:每一列的标准差min：最小值25%：25%分位数，排序之后排在25%位置的数50%：50%分位数75%：75%分位数max:最大值也可以对单列进行分析data['mass'].des

2020-10-06 21:33:35 20887 3

原创 dataframe中删除某一列或某一行

1. 函数DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)参数含义：labels：要删除的行或列，用列表给出axis：默认为0，指要删除的是行，删除列时需指定axis为1index ：直接指定要删除的行，删除多行可以使用列表作为参数columns：直接指定要删除的列，删除多列可以使用列表作为参数inplace: 默认为False，该删除操作不改变原数据；inplace = True时，改变

2020-10-06 19:05:26 102179 7

原创 pandas计算相关系数

pandas计算相关系数在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数1. Pearson相关系数一般用于分析两个连续性变量之间的关系。计算公式如下：2. Spearman秩相关系数Pearson线性相关系数要求连续变量的取值分布服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可以采用Spearman秩相关系数，也称等级相关系数来描述。3. 判定系数判定系数是相关系数的平方，用r2表示；用来衡量回归方程对y的解释程度。例

2020-10-05 21:24:16 7740

原创 2. AUC的四种计算方法

1. 定义法POC曲线横轴为FPR：假正例率，纵轴为TPR：真正例率。AUC其实就是ROC曲线下的面积：m为总样本个数2. 排序损失法形式化的看，AUC考虑的是样本预测的排序质量，因此与排序误差有紧密联系。给定 m+ 个正例和m-个反例，令D+和D-分别表示正、反例集合，则排序损失定义为：解释：排序是按照样本被预测成正例的概率由大到小降序排列。理想中的预测是正例都排在反例的前面。但是不一定会是理想的，有可能出现了损失：有的反例出现在了正例的前面，但是要怎样计算这种损失呢？遍历每一个反例

2020-10-05 19:05:58 6605

原创三、关联规则挖掘理论和算法

一、基本概念与解决方法1. 事务数据库交易数据库又称事务数据库，尽管它们英文名词一样，但事务数据库更具有普遍性。一个事务数据库中的关联规则挖掘可以描述如下：设 I = { i1,2,i3...,im}是一个项目集合，事务数据库D ={t1,t2,...tn}是由一系列具有唯一标识的TID事务组成。每一个事务ti(i =1,2,...,n)都对应I上的一个子集。2. 定义定义3.1：支持度（集合在 I 中出现的次数）定义3.2：频繁项目集对于项目集I，在事务数据库D中所有满

2020-10-04 22:04:27 1931 1

原创计算机网络-----习题3-25

题目在上题中的站点A和B在t=0时同时发送了数据帧。当t=255比特时间，A和B同时检测到发生了碰撞，并且在t=255+48=273比特时间完成了干扰信号的传输。A和B在CSMA/CD算法中选择不同的r值退避。假定A和B选择的随机数分别是rA=0和rB=1。试问A和B各在什么时间开始重传其数据帧？A重传的数据帧在什么时间到达B？A重传的数据会不会和B重传的数据再次发生碰撞？B会不会在预定的重传时间停止发送数据？题解...

2020-10-03 15:49:23 1793 4

原创 python使用cv2读取图像

1.读取图像import cv2img = cv2.imread(path)若要是读取图像的灰度图：gray = cv2.imread('/home/kesci/input/weather_image1552/训练集/%d.jpg'%i,cv2.IMREAD_GRAYSCALE)2. 对图像进行裁剪img = cv2.resize(img,(100,128))#第二个参数为尺寸（宽，高）3. 中值滤波#R为滤波器大小，为大于等于3的奇数img = cv2.medianBlur(im

2020-10-01 21:56:15 2105

qz的博客