o6eceici-CSDN博客

原创 Bert Pretrain

预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器。class WhitespaceTokenizer(object):"""WhitespaceTokenizer with vocab."""def __init__(self, vocab_file):self.vocab = load_vocab(vocab_file)self.inv_vocab = {v: k f

2020-08-04 22:36:37 531

原创 Task5：基于深度学习的文本分类

学习目标：1.学习Word2Vec的使用和基础原理2.学习使用TextCNN，TextRNN进行文本表示3.学习使用HAN网络结构完成文本分类

2020-07-31 22:53:58 154

原创 Task4 基于深度学习的文本分类

fastText模型的输入是一个词的序列（一段文本或者一句话)，输出是这个词序列属于不同类别的概率。在序列中的词和词组构成特征向量，特征向量通过线性变换映射到中间层，再由中间层映射到标签。fastText在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。import pandas as pdfrom sklearn.metrics import f1_score#转换为FastText需要的格式train_df=pd.read_csv('../input/train_set.csv

2020-07-27 21:35:19 134

原创 Task3

一，学习目标1.学会TF-IDF的原理和使用2. 使用sklearn的机器学习模型完成文本分类二，文本表示方法之前只接触过图像处理，对于语音信号的表示方法不了解，刚好借此机会了解。在深度学习中，主要的两个分支主要是基于CNN的图像处理，和基于RNN的语音信号处理。在图像处理中，主要通过CNN的卷积操作，提取特征图，进行后续的识别和其他操作。但是在自然语言领域，由于文本是不定长的，文本通常是表示为数字或向量，将不定长的文本转化到定长的空间中。...

2020-07-25 21:26:37 110

原创 Task2：思考

Q1：假设字符3750，字符900和字符648是句子的标点符号，请分析赛题每篇新闻平均由多少个句子构成？import reall_lines=' '.join(list(train_df['text']))lines_count = len(re.split('[3750 900 648]',all_lines))print(lines_count/train_df.shape[0])print(lines_count)Q2：统计每类新闻中出现次数最多的字符word_c=[]for i in

2020-07-24 12:25:54 148

原创机器学习常用评价指标

精确率 Precision指的是模型判为正的所有样本中有多少是真正的正样本；正样本的预测数/被预测为正样本的数量召回率 Recall指的是所有正样本有多少被模型判为正样本；即分类正确的正样本个数占正样本个数的比例F1-ScoreF1值的一般形式为差准率和查全率的调和均值。参考：https://blog.csdn.net/weixin_39910711/article/details/82940210...

2020-07-21 22:40:26 314

原创深度学习中的集成学习

在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boosting，同时这些集成方法与具体验证集划分联系紧密。DropoutDropout可以作为训练深度神经网络的一种技巧。在每个训练批次中，通过随机让一部分的节点停止工作。同时在预测的过程中让所有的节点都其作用。Dropout经常出现在在先有的CNN网络中，可以有效的缓解模型过拟合的情况，也可以在预测时增加模型的精度。TTA测试集数据扩增（Test Time Augmentation，简称T

2020-06-02 23:04:20 3589

原创 OpenCV:模型训练与验证

一、过拟合&欠拟合1 概念过拟合是指所选模型的复杂度比真模型更高，学习时选择的模型所包含的参数过多，对已经数据预测得很好，但是对未知数据预测得很差得现象。欠拟合是指所选模型得复杂度比真模型更低，学习时选择的模型所包含的参数过少。2 如何判断-特征变量只有一个的时候，可以通过画出决策树的图像，观察拟合效果-画出training error 和cross validation error关于模型超参数的error曲线图来判断-画出学习曲线来识别，考量增加数据量会不会改善学习模型效果-以上

2020-05-30 19:22:49 1058

原创 Pytorch构建CNN模型

1.不平衡问题不平衡程度相同的两个问题，其难易程度不一定相同。难易程度还与数据集大小相关。可以把问题的难易程度排序：分布均衡的大数据<分布不均衡的大数据<分布均匀的小数据<分布不均匀的小数据。说明:对于小数据集,机器学习的方法是比较棘手的。经验表明，训练数据中每个类别有5000个以上样本，其实也要相对于特征而言，来判断样本数目是不是足够，数据量是足够的，正负样本差一个数量级以...

2020-05-26 20:43:26 1592

原创图像数据读取与扩增

这里写自定义目录标题一、图像数据的读取1.matplotlib库2.pillow库pillow库的概述pillow库进行图像处理一、图像数据的读取1.matplotlib库import matplotlib.pyplot as pltimg=plt.imread('.../1.png')print(img.shape)print(img.dtype)print(type(img))plt.imshow(img)plt.show()imread读取的图片为numpy.ndarry的数组，数

2020-05-23 11:41:05 606

原创入门CV赛题理解

1.赛题数据对于训练数据每张图片将给出对应得编码标签，和具体的字符框的位置（训练集、测试集和验证集都给出字符位置）、可用于模型训练在比赛数据的训练集、测试集和验证集中，同一张图片可能包括一个或者多个字符，因此在JSON标注中，会有两个字符的边框信息。数据指标：top：左上角坐标Xheight：字符高度left：左上角坐标Ywidth：字符宽度label：字符编码2.赛题思路该赛题的本质是分类问题，对图片的字符进行识别，但赛题给定数据图片中不同图片中包含的字符数量不等。因此根据以下两种思

2020-05-20 20:13:25 171

原创二手车交易Task5:模型融合

5.1 模型融合目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合，提交融合结果并打卡。5.2内容介绍1.简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合2.stacking/blending:构建...

2020-04-03 19:25:17 187

原创二手车交易Task4:建模调参大纲

4.1 学习目标了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程4.2 内容介绍1.线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；2.模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；3.嵌入式特征选择：Lasso回归Ridge回归决策树4.模型对比：...

2020-03-31 19:09:09 136

原创二手车交易Task3:特征工程

3.1 特征工程目标对于特征进行进一步的分析,并对数据进行处理完成对于特征工程的分析,并对数据进行一些图表或者文字总结打卡特征工程其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。3.2 特征工程内容介绍常见的特征工程包括:1.异常值的处理:通过箱线图(或3-Sigma)分析删除异常值;BOX-COX转换(处理有偏分布);长尾截断;2.特征归一化...

2020-03-27 16:32:28 223

原创二手车交易Task2:EDA之数字特征分析

数字特征分析包含：相关性分析、查看几个特征得偏度和峰值、每个数字特征的分布可视化、数字特征相互之间的关系可视化、多变量互相回归关系可视化这五个部分。

2020-03-23 14:10:49 265

翻译二手车交易Task1:赛题理解baseline

# 查看数据文件目录 list datalab files!ls datalab/Step1：导入函数工具箱## 基础工具 import numpy as np #数值计算包import pandas as pd #数据处理包 import warningsimport matplotlib #数据可视化包import matplotlib.py...

2020-03-21 15:30:16 2988

o6eceici的博客