自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 综合练习

一、端午节的淘宝粽子交易问题(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别,再将 类别结果插入到标题一列之后,最后对类别列进行降序排序。(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失 值进行合理估计并填充。(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为 ××,共计 ×× 人付款,单价为

2020-07-01 22:44:31 153

原创 第9章 时序数据

第9章 时序数据import pandas as pdimport numpy as np一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑,后面会作出一些说明名称描述元素类型创建方式① Date times(时间点/时刻)描述特定日期或时间点Timestampto_datetime或date_range② Time spans(时间段/时期)由时间点定义的一段时期PeriodPeriod或period_range③ Date offs

2020-06-29 20:16:51 574

原创 第8章 分类数据

第8章 分类数据import pandas as pdimport numpy as npdf = pd.read_csv('data/table.csv')df.head() School Class ID Gender Address Height Weight Math Physics 0 S_1

2020-06-28 20:10:13 238

原创 第7章 文本数据

第7章 文本数据import pandas as pdimport numpy as np一、string类型的性质1. string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节③

2020-06-26 20:40:58 935

原创 缺失数据

第6章 缺失数据1.缺失观测及其类型1.1 缺失信息1.2 三种缺失符号1.3 Nullable类型与NA符号1.4 NA特性1.5 convert_dtypes方法2.缺失数据的处理(运算与分组)2.1 加乘累计2.2 groupby方法中的缺失值3.填充与剔除3.1 fillna方法(填充)3.2 dropna方法(剔除)4.插值4.1线性插值4.2高级插值import pandas as pdimport numpy as npdf = pd.read_csv('d

2020-06-23 15:28:05 386

原创 Datawhale 零基础入门CV赛事-Task5 模型集成

1.模型集成集成学习方法,深度学习中的集成学习,结果后处理。机器学习:Stacking、Bagging和Boosting2.深度学习2.1.交叉验证,留出法方法1:十折验证得到十个模型,分别用十个模型预测得到概率值进行平均作为结果,解码为具体字符方法2:每一个模型输出一个分类结果(字符),对字符统计进行投票2.2 dropout训练过程中随机让一部分节点停止工作,预测过程中所有节点工作,这样可以降低模型复杂度,同时增加预测精度。3.代码加入Dropout后的网络结构如下:# 定义模

2020-06-02 22:37:04 95

原创 Datawhale 零基础入门CV赛事-Task4 模型训练与验证

模型的训练与验证1.验证集动机训练过程中,模型复杂度过高,泛化效果差,导致过拟合。训练不足,模型复杂度过低,模型在训练集效果差,欠拟合。随着模型复杂度和模型训练轮数增加,CNN模型在训练集误差会降低,但在测试集先降低再升高,训练过程中,希望模型能经受住测试集的考验。比喻:训练是学习的过程,验证是小考,测试是高考。需要注意:无论是训练集还是验证集都是有标签的,测试集是没有标签的。2.有三种划分验证集方法1.留一法2.交叉验证法3.自助采样法3.模型的训练与验证1.构造训练集和验证集2.

2020-05-30 23:00:31 68

原创 Datawhale 零基础入门CV赛事-Task3 字符识别模型

1.字符识别模型学习CNN原理,搭建CNN字符识别模型,完成训练。2.CNN构成:卷积,池化,非线性激活函数和全连接层构成。工作过程:CNN经过多次卷积和池化正则化最后一层将图像像素映射为具体的输出。在分类任务中会转换成不同类别概率的输出,然后计算预测值与标签的差异,反向传播误差更新每一层参数,更新完成后前向计算预测值,如此反复直至训练完成。特点:端到端,不需要人工提取特征。3.结构R,S,T分别表示非线性激活函数4.pytorch构建CNN模型(代码)过程:1.读取数据2.构建cnn

2020-05-24 11:31:20 101

原创 Datawhale零基础⼊⻔CV-Task2 数据读取与数据扩增

1.任务描述数据读取,数据扩增,pytorch读取数据2.图像读取赛题数据:图像赛题任务:识别图像字符数据读取工具:pillow,opencv等python库2.1pillow2.2opencvopencv是一个跨平台视觉库,功能强大。3.数据扩增数据扩增(Data Augmentation)用途:增加训练集样本,缓解过拟合,增强泛化。方法:...

2020-05-23 18:59:13 180

原创 Datawhale 零基础入门CV赛事Task1 赛题理解

Task1 赛题理解1.赛题理解赛题名称:零基础入门CV之街道字符识别赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。2.赛题数据赛题以街道字符为为赛题数据,来自收集的SVHN街道字符,并进行了匿名采样处理。在这里插入图片描述在这里插入图片描述训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。3.数据标签对于训练数据每张

2020-05-20 16:11:20 152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除