qq_38689228-CSDN博客

转载综合练习

一、端午节的淘宝粽子交易问题(1) 请删除最后一列为缺失值的行，并求所有在杭州发货的商品单价均值。(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别，再将类别结果插入到标题一列之后，最后对类别列进行降序排序。(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失值进行合理估计并填充。(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××，店铺为 ××，共计 ×× 人付款，单价为

2020-07-01 22:44:31 158

原创第9章时序数据

第9章时序数据import pandas as pdimport numpy as np一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑，后面会作出一些说明名称描述元素类型创建方式① Date times（时间点/时刻）描述特定日期或时间点Timestampto_datetime或date_range② Time spans（时间段/时期）由时间点定义的一段时期PeriodPeriod或period_range③ Date offs

2020-06-29 20:16:51 580

原创第8章分类数据

第8章分类数据import pandas as pdimport numpy as npdf = pd.read_csv('data/table.csv')df.head() School Class ID Gender Address Height Weight Math Physics 0 S_1

2020-06-28 20:10:13 243

原创第7章文本数据

第7章文本数据import pandas as pdimport numpy as np一、string类型的性质1. string与object的区别string类型和object不同之处有三：① 字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节③

2020-06-26 20:40:58 1010

原创缺失数据

第6章缺失数据1.缺失观测及其类型1.1 缺失信息1.2 三种缺失符号1.3 Nullable类型与NA符号1.4 NA特性1.5 convert_dtypes方法2.缺失数据的处理（运算与分组）2.1 加乘累计2.2 groupby方法中的缺失值3.填充与剔除3.1 fillna方法（填充）3.2 dropna方法（剔除）4.插值4.1线性插值4.2高级插值import pandas as pdimport numpy as npdf = pd.read_csv('d

2020-06-23 15:28:05 409

原创 Datawhale 零基础入门CV赛事-Task5 模型集成

1.模型集成集成学习方法，深度学习中的集成学习，结果后处理。机器学习：Stacking、Bagging和Boosting2.深度学习2.1.交叉验证，留出法方法1：十折验证得到十个模型，分别用十个模型预测得到概率值进行平均作为结果，解码为具体字符方法2：每一个模型输出一个分类结果（字符），对字符统计进行投票2.2 dropout训练过程中随机让一部分节点停止工作，预测过程中所有节点工作，这样可以降低模型复杂度，同时增加预测精度。3.代码加入Dropout后的网络结构如下：# 定义模

2020-06-02 22:37:04 101

原创 Datawhale 零基础入门CV赛事-Task4 模型训练与验证

模型的训练与验证1.验证集动机训练过程中，模型复杂度过高，泛化效果差，导致过拟合。训练不足，模型复杂度过低，模型在训练集效果差，欠拟合。随着模型复杂度和模型训练轮数增加，CNN模型在训练集误差会降低，但在测试集先降低再升高，训练过程中，希望模型能经受住测试集的考验。比喻：训练是学习的过程，验证是小考，测试是高考。需要注意：无论是训练集还是验证集都是有标签的，测试集是没有标签的。2.有三种划分验证集方法1.留一法2.交叉验证法3.自助采样法3.模型的训练与验证1.构造训练集和验证集2.

2020-05-30 23:00:31 72

原创 Datawhale 零基础入门CV赛事-Task3 字符识别模型

1.字符识别模型学习CNN原理，搭建CNN字符识别模型，完成训练。2.CNN构成：卷积，池化，非线性激活函数和全连接层构成。工作过程：CNN经过多次卷积和池化正则化最后一层将图像像素映射为具体的输出。在分类任务中会转换成不同类别概率的输出，然后计算预测值与标签的差异，反向传播误差更新每一层参数，更新完成后前向计算预测值，如此反复直至训练完成。特点：端到端，不需要人工提取特征。3.结构R,S,T分别表示非线性激活函数4.pytorch构建CNN模型（代码）过程：1.读取数据2.构建cnn

2020-05-24 11:31:20 104

原创 Datawhale零基础⼊⻔CV-Task2 数据读取与数据扩增

1.任务描述数据读取，数据扩增，pytorch读取数据2.图像读取赛题数据：图像赛题任务：识别图像字符数据读取工具：pillow,opencv等python库2.1pillow2.2opencvopencv是一个跨平台视觉库，功能强大。3.数据扩增数据扩增（Data Augmentation）用途：增加训练集样本，缓解过拟合，增强泛化。方法：...

2020-05-23 18:59:13 184

原创 Datawhale 零基础入门CV赛事Task1 赛题理解

Task1 赛题理解1.赛题理解赛题名称：零基础入门CV之街道字符识别赛题任务：赛题以计算机视觉中字符识别为背景，要求选手预测街道字符编码，这是一个典型的字符识别问题。2.赛题数据赛题以街道字符为为赛题数据，来自收集的SVHN街道字符，并进行了匿名采样处理。在这里插入图片描述在这里插入图片描述训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。3.数据标签对于训练数据每张

2020-05-20 16:11:20 157

qq_38689228的博客