自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 linux远程连接与基本操作

这里写自定义目录标题查看GPU信息hello world执行查看GPU信息hello world执行

2024-11-03 16:00:49 144

原创 新闻分类大赛task6

bert的方法由于数据采用匿名形式,使用bert需要自行训练模型。

2020-08-04 22:36:06 183

原创 新闻分类大赛task5

深度学习的文本分类TextCNNimport loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seed seed = 666random.seed(seed)np.random.seed(seed)torch.cuda.manual_see

2020-07-31 22:02:04 129

原创 新闻分类大赛task4

构造数据在fasttext中,标签使用__label__X的形式表示,text label存为csv。train_df = pd.read_csv(rtrain_set.csv",sep='\t', nrows=15000)train_df['label_ft'] = '__label__' + train_df['label'].astype(str)train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None,

2020-07-27 22:44:05 146

原创 新闻分类大赛task3

文本表示方法采用词袋模型进行文本表示,使用sklearn中CountVectorizer函数from sklearn.feature_extraction.text import TfidfVectorizercorpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?'

2020-07-25 23:07:27 106

原创 新闻分类大赛task2

文本长度昨天错误以为文本格式为list,,直接使用len()函数对text进行长度计算。今天才发现就是普通文本格式“3 24 53”,需要使用split函数进行切分求长度。20万条新闻数据,平均长度为987,最长57921,最短为2,长度分布不太均匀。初步判断为长文本分类。类别分布利用pandas数据透视,分析每个Label数据量。table = pd.pivot_table(train_df,index=['label'],aggfunc='count')print(table).

2020-07-22 23:52:07 112

原创 新闻分类大赛赛题分析

@新闻分类大赛赛题分析本文对天池新闻文本分类比赛进行赛题分析。1 数据格式训练集为csv格式文件,使用pandas读取前十行,结果如图。import pandas as pdtrain_df = pd.read_csv(r'train_set.csv', sep='\t')print(len(train_df))print(train_df.head(10))训练集一共20万条数据。数据集中标签label的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’

2020-07-21 17:40:17 237

原创 动手学深度学习task5

卷积神经网络

2020-02-19 18:50:46 120

原创 动手学深度学习task4

机器翻译 与seq2seq由于机器翻译任务中输入输出都是不定长序列,我们可以使用编码器—解码器(encoder-decoder)或者seq2seq模型 。注意力机制attention模仿人类注意力,能让模型更关注数据的局部。...

2020-02-19 18:48:21 157

原创 动手学深度学习task3

过拟合、欠拟合及其解决方案欠拟合解决方案:添加其它的特征项添加多项式特征减少正则化参数过拟合解决方案:增加训练样本权值衰减dropout梯度消失、梯度爆炸梯度爆炸如果在连续乘法中出现一个非常大的值,计算出一个很大的梯度值,如果以这个梯度值进行更新,那么这次迭代的步长就很大,可能会一下子飞出了合理的区域。可以通过梯度裁剪的方法解决。梯度消失如果连续乘法中出现一个较小的值,...

2020-02-19 18:41:57 170

原创 动手学深度学习task2

动手学深度学习task2文本预处理主要为分词,在英文文本中一个空格隔开两个词语,在中文文本则需要使用分词技术,一般采用jieba分词,速度比较快,实际测试中thulac具有比较好的效果。-语言模型基于统计的语言模型,N元语法模型-循环神经网络基础...

2020-02-14 21:27:01 146

原创 动手学深度学习task1

动手学深度学习task1线性回归线性回归损失函数为:这里使用平方损失函数。softmaxsoftmax是将多个类别的概率归一化。训练中使用,而在预测中可以省略,直接取值最高者。...

2020-02-14 21:20:16 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除