机器学习
文章平均质量分 81
冬于
ifwind.github.io/
展开
-
天池零基础入门NLP竞赛实战:Task4 基于深度学习的文本分类2.2-Word2Vec+TextCNN+BiLSTM+Attention分类
Task4 基于深度学习的文本分类2.2-Word2Vec+TextCNN+BiLSTM+Attention分类完整代码见:NLP-hands-on/天池-零基础入门NLP at main · ifwind/NLP-hands-on (github.com)模型架构模型结构如下图所示,主要包括WordCNNEncoder、SentEncoder、SentAttention和FC模块。最终需要做的是文档分类任务,从文档的角度出发,文档由多个句子序列组成,而句子序列由多个词组成,因此我们可以考虑从词的原创 2021-10-16 19:00:32 · 3526 阅读 · 0 评论 -
天池零基础入门NLP竞赛实战:Task4 基于深度学习的文本分类2-Word2Vec
Task4 基于深度学习的文本分类2-Word2Vec文本表示方法 Part2-2Word2Vec原理Word2Vec是轻量级的神经网络,其模型仅仅包括输入层、隐藏层和输出层,模型框架根据输入输出的不同,主要包括CBOW和Skip-gram模型。 CBOW的方式是在知道词wtw_twt的上下文wt−2,wt−1,wt+1,wt+2w_{t-2},w_{t-1},w_{t+1},w_{t+2}wt−2,wt−1,wt+1,wt+2的情况下预测当前词wtw_twt。而Skip-gram是在知原创 2021-10-16 18:59:15 · 263 阅读 · 0 评论 -
天池零基础入门NLP竞赛实战:Task4 基于深度学习的文本分类1-FastText
Task4 基于深度学习的文本分类1-FastText与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2-1现有文本表示方法的缺陷之前介绍的几种文本表示方法(One-hot、Bag of Words、N-gram、TF-IDF)都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同,深度学习也可以用于原创 2021-10-16 18:58:35 · 350 阅读 · 0 评论 -
天池零基础入门NLP竞赛实战:Task3 基于机器学习的文本分类
Task3 基于机器学习的文本分类实操主要包括以下几个任务:基于文本统计特征的特征提取(包括词频特征、TF-IDF特征等)如何划分训练集(用于参数选择、交叉验证)结合提取的不同特征和不同模型(线性模型、集成学习模型)完成训练和预测文本表示方法在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本原创 2021-10-16 18:57:18 · 395 阅读 · 0 评论 -
天池零基础入门NLP竞赛实战:Task1&Task2 数据读取与数据分析
Task1&Task2 数据读取与数据分析赛题数据是文本数据,每个新闻是不定长的,使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv(r'train_set.csv', sep='\t')pd.read_csv常用参数:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的函数,原创 2021-10-16 18:56:02 · 522 阅读 · 0 评论 -
李宏毅机器学习13、14-深度学习和反向传播
李宏毅机器学习13、14-深度学习和反向传播深度学习的步骤Step1:神经网络(Neural network)Step2:模型评估(Goodness of function)Step3:选择最优函数(Pick best function)Step1:神经网络(Neural network)神经元之间的连接方式全连接前馈神经网络神经网络可以有很多不同的连接方式,会产生不同的结构(structure)。全连接前馈神经网络是其中的一种。全链接和前馈的理解前馈(feedforward)也可以原创 2021-09-19 23:54:17 · 210 阅读 · 0 评论 -
李宏毅机器学习03、04-误差和梯度下降
李宏毅机器学习03、04-误差和梯度下降误差误差来源误差有三个来源:样本噪音noise;模型预测值的方差variance;预测值相对真实值的偏差bias。误差计算公式:误差的期望值 = 噪音的方差 + 模型预测值的方差 + 预测值相对真实值的偏差的平方E((y−f^(x))2)=σ2+Var[f^(x)]+(Bias[f^(x)])2Bias[f^(x)]=E[f^(x)−f(x)]E((y−\hat f(x))^2)=σ^2+Var[\hat f(x)]+(Bias[\hat f(原创 2021-09-17 23:26:11 · 421 阅读 · 0 评论 -
李宏毅机器学习02-回归Regression
李宏毅机器学习02-回归Regression回归定义Regression 就是找到一个函数 function ,通过输入特征 x,输出一个数值 Scalar。模型步骤step1:模型假设,选择模型框架(线性模型)step2:模型评估,如何判断众多模型的好坏(损失函数)step3:模型优化,如何筛选最优的模型(梯度下降)Step 1:模型假设 - 线性模型(Linear model)一元线性模型(单个特征)一元线性模型假设y=b+w⋅xy = b + w·xy=b+w⋅x,www和bbb原创 2021-09-15 23:19:25 · 145 阅读 · 0 评论 -
西瓜书阅读笔记(目录)
西瓜书阅读笔记(目录)西瓜书阅读笔记——第1章-绪论西瓜书阅读笔记——第2章-模型评估与选择(到2.3.2)西瓜书阅读笔记——第3章-线性回归(3.1-3.2)西瓜书阅读笔记——第3章-对数几率回归(3.3)西瓜书阅读笔记——第3章-线性判别分析(3.4)西瓜书阅读笔记——第3章-多分类学习和类别不平衡问题(3.5、3.6)西瓜书阅读笔记——第4章-决策树西瓜书阅读笔记——第5章-神经网络西瓜书阅读笔记——第6章-支持向量机(硬间隔6.1、6.2) | 冬于的博客 (ifwind.gith原创 2021-08-20 18:17:57 · 329 阅读 · 0 评论