![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 62
模型小垃圾
这个作者很懒,什么都没留下…
展开
-
使用Fasttext与卷积进行情感分析
FastText情感分析在不使用RNN进行句子的情感分析的条件下,最简单的方法就是将每个句子中划分的token的vector进行平均,然后送入线性分类层中分类即可。但这种操作值考虑了token的含义,并没有关注其语序,有较大的误差。所以FastText计算了输入句子的n-gram,并将n-gram作为一种附加特征来获取局部词序特征信息添加至标记化列表的末尾。n-gram的基本思想是,将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。def generate_bigram原创 2021-09-24 23:54:03 · 267 阅读 · 0 评论 -
双向LSTM做情感分析
1、LSTM层Class torch.nn.LSTM(*args,**kwargs)# pytorch中的输入参数input_size – 数据的特征维度(使用embedding时就是指embedding dim)hidden_size – 隐向量的维度num_layers – LSTM的层数,i层LSTM将使用i-1层LSTM的输出作为输入。默认为1bias – 特征变换时是否使用bias,默认为Truebatch_first – 设置batch_size的位置,当为True时,原创 2021-09-18 16:56:58 · 1295 阅读 · 0 评论 -
使用torchtext加载数据
torchtext基本组件。Field :主要包含以下数据预处理的配置信息,比如指定分词方法,是否转成小写,起始字符,结束字符,补全字符以及词典等等Dataset :继承自pytorch的Dataset,用于加载数据,提供了TabularDataset可以指点路径,格式,Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象,可以直接加载使用,splits方法可以同时加载训练集,验证集和测试集。Iterator : 主要是数据输出的模型的迭代器,原创 2021-09-13 18:32:24 · 1334 阅读 · 0 评论 -
Transformer原理解析
TransformerRNN的提供了一种对带有时序依赖关系的数据更好的建模方式,常用的seq2seq结构使RNN可以输入输出的维度不一样,解决了某一些文本问题(如翻译),带有Attention的seq2seq结构使decoder部分不再完全依赖中间的语义向量Context,还结合了所有encoder中隐藏层的状态,使各种文本任务的精度得到了很大的提升。而带Attention的seq2seq结构存在无法并行的问题,因为RNN的结构要求输入需要一个接一个。Transformer结构就是为了解决无法并行的问题而原创 2021-08-18 23:25:54 · 1081 阅读 · 0 评论 -
使用Numpy实现卷积的前向传播
import numpy as npimport mathclass Conv2D(object): def __init__(self, shape, output_channels, ksize=3, stride=1, method='VALID'): self.input_shape = shape self.output_channels = output_channels self.input_channels = shape[-1原创 2021-08-10 23:21:53 · 123 阅读 · 0 评论 -
Spark原理详解
Spark原理详解Spark优势高效性MapReduce将中间计算结果放入到磁盘当中,但Spark采用内存存储的方式来储存中间计算结果,IO操作大大减少,同时并行计算DAG图的优化,减少了不同任务之间的依赖,MapReduce使用进程的方式维护Task,但Spark使用线程的方式启动维护Task。易用性MapReduce只有Map与Reduce两种算子,Spark提供了超过80种Transformation和Action的算子,包括map、reduce、filter、groupByKey,Sor原创 2021-05-26 11:40:27 · 321 阅读 · 0 评论 -
集成方法简述
集成学习是通过多个基学习器的预测结果来优化模型的拟合能力与泛化能力,其中主要分为两大类:一种是基学习器之间存在强依赖关系,使用串行化训练,例如Boo ing;另一种是基学习器之间不存在依赖关系,可使用并行化训练,例如Bagging和随机森林。1、随机森林Bagging集成学习方法的特点是有放回的抽样,训练多个基学习器,多数表决或简单平均,随机森林属于Bagging方法的变体,其训练过程没有强依赖关系。步骤随机选择样本(有放回的抽样)随机选择特征属性构建决策树进行平均投票,防止过拟合B原创 2021-05-24 16:02:34 · 736 阅读 · 0 评论 -
特征工程-组合特征
1、基于A/B的统计特征A关于B的传统统计特征。这是非常通用的一组特征,其构建的思路也非常简单,就是计算组内(无序类别特征)数值特征的统计信息。df['A_B_mean'] = df.groupby('A')['B'].transform('mean').valuesdf['B_A_median'] = df.groupby('B')['A'].transform('median').valuesdf['A_B_std'] = df.groupby('A')['B'].transform(原创 2021-05-23 17:17:21 · 536 阅读 · 2 评论 -
特征工程-时间组合特征
一:无序类别特征+时间特征1、基于A/B差值特征计算类别特征A的组内时间特征B的时间间隔,在推荐系统中,类别特征为商品时,特征B使用浏览时间、购买时间或点击时间,可以表示表示A商品被浏览/购买/点击的时间差。# 一次差值特征df['A_B_diff'] = df['B']-df.groupby['A']['B'].shift()# 二次差值特征df['A_B_diff2'] = df['B']-df.groupby['A']['B'].shift(2)2、基于A与A/B差值特征的统计特征在原创 2021-05-23 15:05:18 · 182 阅读 · 0 评论 -
正则化防止过拟合的通俗解释
正则化防止过拟合的通俗解释过拟合原因解决方法正则化有效的原因导数角度维度角度贝叶斯角度过拟合过拟合是模型训练当中十分容易出现的一种现象,具体表现为模型在训练集上表现很好,但在验证集上表现较差。原因训练数据不足模型复杂度过高训练集与测试集样本的分布不同样本里面的噪声数据干扰过大解决方法增加更多数据降低模型复杂度数据增强正则化dropout早停技巧Batch Normalization正则化有效的原因导数角度过拟合的时候,拟合函数的系数往往非常大,就是拟合函数需要顾忌原创 2021-05-09 17:43:27 · 301 阅读 · 0 评论