liuyi6111-CSDN博客

原创 # Python之禅翻译

The Zen of PythonPython之禅 by Tim Peters 六一译Beautiful is better than ugly.优美胜于丑陋Explicit is better than implicit.明了胜于晦涩Simple is better than complex.简洁胜于复杂Complex is better than complicated.复杂胜于凌乱Flat is better than nested.扁平胜于嵌套Sparse is

2020-12-07 21:05:36 537

原创 Datawhale组队学习-金融时序数据挖掘实践-Task06建模预测

Datawhale组队学习-金融时序数据挖掘实践-Task06建模预测# 分割数据集def split_data_underline(data: pd.DataFrame)->pd.DataFrame: trainset = data[(datetime.datetime(2014,4,1) <= data['date']) & (data['date'] < datetime.datetime(2014,8,1))] testset = data[(date

2020-08-25 21:29:19 432

原创 Datawhale组队学习-金融时序数据挖掘实践-Task05特征工程

Datawhale组队学习-金融时序数据挖掘实践-Task05特征工程# 为方面后面操作，设置全局index变量labels = ['total_purchase_amt','total_redeem_amt']date_indexs = ['week','year','month','weekday','day']# Load the balance datadef load_data(path: str = 'user_balance_table.csv')->pd.DataFram

2020-08-25 00:28:52 352

原创 Datawhale组队学习-金融时序数据挖掘实践-Task03时间序列规则

Datawhale组队学习-金融时序数据挖掘实践-Task03时间序列规则1.时间特征1.1 连续时间持续时间：浏览时长；间隔时间：购买/点击距今时长；距离假期的前后时长（节假日前和节假日后可能会出现明显的数据波动）；1.2 离散时间年、季度、季节、月、星期、日、时等；++ 基本特征，如果用 Xgboost 模型可以进行 one-hot 编码；++ 如果类别比较多，可以尝试平均数编码（Mean Encoding）。++ 或者取 cos/sin 将数值的首位衔接起来，比

2020-08-22 22:22:49 300

原创 Datawhale组队学习-金融时序数据挖掘实践-Task01数据探索与分析

Datawhale组队学习-金融时序数据挖掘实践-Task01数据探索与分析在二手车交易价格预测之后，本菜鸟又加入了金融时序数据挖掘实践的学习。两个项目都是结构化数据，都着重于对数据本身的探索。但时序数据有着不同于普通数据的周期性和绝对不能打乱的顺序性，在数据探索、特征工程及测试集划分等环节都有其独有的思路和方法，常常被单独划分出来自成体系。一、赛题理解本次实践内容是对货币基金的购买量和赎回量（资金的流入和流出）进行预测。赛题提供了2.8万个用户20130701至20140831的申购和赎回信

2020-08-20 23:54:58 580

原创 joyful-pandas（下）学习笔记——第10章综合练习

joyful-pandas（下）学习笔记——第10章综合练习一、端午节的淘宝粽子交易首先读取数据data_Zongzi = pd.read_csv('Pandas（下）综合练习数据集/端午粽子数据.csv')#记得之前jupyter对中文路径支持不太好，现在居然也可以直接用了data_Zongzidata_Zongzi.columns#注意 ' 价格'和'发货地址 '列名中有空格#其实可以直接把列名中的空格strip一下的，好蠢Index([‘标题’, ’ 价格’, ‘付款人数’,

2020-07-01 23:54:31 382

原创 joyful-pandas（下）学习笔记——第9章时序数据

joyful-pandas（下）学习笔记——第9章时序数据【练习一】现有一份关于某超市牛奶销售额的时间序列数据，请完成下列问题：（a）销售额出现最大值的是星期几？（提示：利用dayofweek函数）df['日期'].dt.dayofweek[df['销售额'].idxmax()]（b）计算除去春节、国庆、五一节假日的月度销售总额holiday = pd.date_range(start='20170501', end='20170503').append( pd.date

2020-06-29 23:02:35 343

原创 joyful-pandas（下）学习笔记——第8章分类数据

joyful-pandas（下）学习笔记——第8章分类数据【练习一】现继续使用第四章中的地震数据集，请解决以下问题：（a）现在将深度分为七个等级：[0,5,10,15,20,30,50,np.inf]，请以深度等级Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅵ,Ⅶ为索引并按照由浅到深的顺序进行排序。data['深度']=pd.cut(data['深度'],[-0.1,5,10,15,20,30,50,np.inf],labels=['Ⅰ','Ⅱ','Ⅲ','Ⅳ','Ⅴ','Ⅵ','Ⅶ'])（b）在（a）的基础上，将烈

2020-06-28 16:43:03 1089

原创 # joyful-pandas（下）学习笔记——第7章文本数据

joyful-pandas（下）学习笔记——第7章文本数据【练习一】现有一份关于字符串的数据集，请解决以下问题：（a）现对字符串编码存储人员信息（在编号后添加ID列），使用如下格式：“×××（名字）：×国人，性别×，生于×年×月×日”df['姓名'].str.cat(df['国籍'],sep=':').str.cat(df['性别'],sep='国人，性别').str.cat(df['出生年'],sep=',生于').str.cat(df['出生月'],sep='年').str.cat(df['出

2020-06-26 22:28:27 329

原创 joyful-pandas（下）学习笔记——第6章缺失数据

joyful-pandas（下）学习笔记——第6章缺失数据理想情况下，数据进行完分组变形合并，就可以开始进行下一步数理统计分析了。但是，实际上还有一项非常艰巨的任务需要提前完成，那就是缺失数据的处理。如果忽略缺失数据的处理，很多运算会报错，或者流畅地运行完但是并不能得到期望的处理结果。除了数据表合并时候索引不对应造成的数据缺失，日常应用中还会接触到大量原生数据中自带的缺失，比如客户填写资料时某些空格没有填写、传感器采集数据时出现传感器或者通信线路故障导致数据没有被写入数据表等等。实际中出

2020-06-23 22:44:52 569

原创 Datawhale 零基础入门CV赛事学习笔记-Task5 模型集成

Datawhale 零基础入门CV赛事-Task5 模型集成1 集成学习集成学习只能在一定程度上提高精度，并需要耗费较大的训练时间，因此建议先使用提高单个模型的精度，再考虑集成学习过程。具体的集成学习方法需要与验证集划分方法结合，Dropout和TTA是应用较为广泛的方法。1.1 Dropout Dropout 是一种深度学习的一种技巧，他会随机让某些节点不参与训练，而在预测时，所有节点又参与训练，这样训练时就不会出现该模型对于某一点极其依赖，所以也是一种缓解过拟合的的有效方法。clas

2020-06-02 21:25:40 196

原创 Datawhale 零基础入门CV赛事学习笔记-Task4 模型训练与验证

Datawhale 零基础入门CV赛事-Task4 模型训练与验证1 构造验证集在机器学习模型（特别是深度学习模型）的训练过程中，模型是非常容易过拟合的。深度学习模型在不断的训练过程中训练误差会逐渐降低，但测试误差的走势则不一定。在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（Overfitting）。与过拟合相对应的是欠拟合（Underfittin

2020-05-30 22:50:11 272

原创 Datawhale 零基础⼊⻔CV赛事学习笔记-Task3 字符识别模型

Datawhale 零基础⼊⻔CV-Task3 字符识别模型1 CNN介绍为什么要使用CNN来处理图像数据呢？在处理图像时，第一个全连接层是非常巨大的。如图所示，一张100$\times$100像素的3通道图片，经过一个1000个神经元的全连接层，就会产生3×1073\times10^73×107个输出。这样庞大的数据集处理起来是非常低效的。实际上，有时候我们并不需要正掌图片全部的信息。比如一个识别“鸟喙”的检测器，只需要图片中一个小区域的很少的特征信息就够了。还有些时候

2020-05-26 23:33:25 187

原创 Datawhale 零基础入门CV赛事学习笔记-Task2 数据读取与数据扩增

Datawhale 零基础入门CV赛事学习笔记-Task2 数据读取与数据扩增数据读取在Pytorch中实现图像数据读取主要基于两个基类：Dataset和DataLoader，Dataset主要是通过索引加载图片并进行相应的处理，而DataLoader则进行图片的批量打包（batch）DataLoader torch.utils.data.DataLoader() ：构建可迭代的数据装载器，我们在训练的时候，每一个for循环，每一次iteration，就是从DataLoader中获取一个bat

2020-05-25 19:51:06 331 1

原创 Datawhale 零基础入门CV赛事学习笔记-Task1 赛题理解

Datawhale 零基础入门CV赛事-Task1 赛题理解心心念念的pandas组队学习这个月没有安排，对自己一个人独自学习自觉性很是怀疑的我，有些懵逼地随大流加入了深度学习的队伍。。。1 赛题理解本次比赛是以数字字符识别为切入口，带领小白们粗识深度学习中的图像识别领域。由于对CV缺乏基本的概念，所以首先是查找了一些深度学习的资料。近段时间大家都在热传邱锡鹏老师的蒲公英书，但是因为懒得去看时间紧迫，只百度了一些别人的概述解说类资料飞速地看了看。宝可梦大师（李宏毅）的《一天搞懂深度学习》

2020-05-20 23:26:15 375 1

原创 leetcode刷题总结——13. 罗马数字转整数

目录1 编程思路2 错误调试3 代码优化1 编程思路如果对罗马数字转换阿拉伯数字的相关业务知识熟悉，这题很简单，就是数字的累加，以及异常情况的右边大数减左边小数。使用一个if…else搞定。 if my_dict[s[i]] < my_dict[s[i+1]]: my_sum -= my_dict[s[i]] else: my_...

2020-04-18 15:28:02 161

原创 leetcode刷题总结——8. 字符串转换整数 (atoi)

目录1 编程思路2 错误调试3 代码优化1 编程思路1.1空格处理看到“丢弃无用的开头空格字符”，在python中当然是直接调用删除字符串两端空格的专用函数strip。因为题目中只需要丢弃开头的空格，所以用了去除左边空格的lstrip。后面发现，其实strip和lstrip还是有些效率差别的，参看后面的“3 代码优化”。my_str = str.lstrip()1.2提取数字字...

2020-04-18 11:24:38 271

原创 Datawhale 零基础入门数据挖掘学习笔记-Task5 模型融合

Datawhale 零基础入门数据挖掘学习笔记-Task5 模型融合1、数据处理首先找一些数据：import pandas as pdimport numpy as npTrain_feature = pd.read_csv('Train_data_for_tree0401.csv')建模前对数据做一些简单处理，替换异常值，将Object类型转换为float类型Train_feat...

2020-04-04 19:30:29 174

原创 Datawhale 零基础入门数据挖掘学习笔记-Task4 建模调参

Datawhale 零基础入门数据挖掘学习笔记-Task4 建模调参import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom matplotlib import pyplot as pltIn [3]:Train_feature = pd.read_csv(‘Tr...

2020-04-01 21:33:38 611

原创 Datawhale 零基础入门数据挖掘学习笔记-Task3 特征工程

Datawhale 零基础入门数据挖掘学习笔记-Task3 特征工程[¶] 之前的应用中，把数据塞进模型前的部分统统简单粗暴地称之为“洗数据”。在这次的学习中，初步接触了“探索性学习”和“特征工程”两个概念。在我的理解中，探索性学习偏向数据本身，目的性较弱，主要是为了认识、了解数据本身的一些特性。而特征工程则和业务知识理解结合较为紧密，目的明确，一方面基于业务理解，尽可能可能找出对因变量有影响...

2020-03-28 21:54:57 416

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-文本分类；数据增强；模型微调

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！2 数据增强大规模数据集是深度神经网络的成功前提。数据增强（图像增广）技术通过对训练图像进行一系列随机改变来产生相似但又不同的训练样本，从而扩大训练数据集的规模。常用的图像增广方式有随...

2020-02-25 21:05:24 183

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-优化算法进阶；word2vec；词嵌入进阶

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！2 词嵌入基础2.1 概念之前的循环神经网络课程介绍了one-hot向量表示单词。one-hot构造容易，但无法使用常用的方式（如余弦相似度）准确表达不同词之间的相似度。词嵌入是指...

2020-02-25 20:41:04 207

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-批量归一化和残差网络；凸优化；梯度下降

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！1 批量归一化和残差网络1.1 批量归一化归一化：主要对浅层模型。对输入的数据进行处理，使任意一个特征在数据集中所有样本上的均值为0、标准差为1。这样可以使输入的数据各个特征的分布相...

2020-02-25 18:57:22 248

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！1 机器翻译及相关技术1.1 概念机器翻译就是将一段文本从一种语言翻译为另一种语言。机器翻译的输出是单词序列，输出序列和输入序列的长度可能不同。1.2 预处理首先要对输入文本进...

2020-02-19 20:19:48 385

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-卷积神经网络基础；leNet；卷积神经网络进阶

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！1 卷积神经网络基础1.1 二维卷积本小节介绍了二维卷积，主要用于图像数据（刚好是二维的数据）处理。二维卷积通过输入二维数据和二维核数据的运算（卷积），得到一个小于输入数据的二维输...

2020-02-18 20:19:00 215

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！2 梯度消失、梯度爆炸2.1 概念当神经网络的层数较多时，模型的参数容易随着指数增长而迅速减小至接近零（梯度消失）或迅速增加至非常大（梯度爆炸），使模型的稳定性变差。2.2 参数初始...

2020-02-18 16:53:40 253

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！1 文本预处理1.1 概念文本处理是机器学习的一个热点和难点。这一小节主要介绍的是计算机处理文本的第一步骤–文本预处理。预处理工作相对较简单，包括读入、分词、建立字典、转换为索引序列...

2020-02-14 20:13:13 211

原创 ElitesAI·动手学深度学习PyTorch版学习笔记-线性回归；Softmax与分类模型、多层感知机

宅家中看到Datawhale的学习号召，在大牛云集的群上找到了一个很佛系的小组，战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技，感谢课程制作者、组织者、各位助教以及其他志愿者！1 线性回归这个小节的内容是线性回归的pytorch实现。线性回归假设输出与各个输入之间是线性关系，在课程示例中使用房屋的价格作为标签，选取面积和房龄两个特征，建立线性关系的数学...

2020-02-13 21:30:16 333

liuyi6111的博客