自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 天池:新闻文本分类-NLP实践Note-04

基于深度学习的文本分类01学习目标文本表示方法FastText部分API参数:文本分类基于FastText的文本分类转换为FastText需要的格式实验优化如何使用验证集调参其他优化方法技巧 Making the model better本章小结参考 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。 学习目标 学习FastText的使用和基础原理 学会使用验证集进行调参 文本表示方法 之前介绍几种文本表示方法: One-hot

2020-08-09 17:23:37 415

原创 天池:新闻文本分类-NLP实践Note-06

学习目标 了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune 文本表示方法Part4 Transformer原理 Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输.

2020-08-06 00:10:28 232

原创 天池:新闻文本分类-NLP实践Note-05

在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。 基于深度学习的文本分类 本章将继续学习基于深度学习的文本分类。 学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Part3 词向量 本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个

2020-07-31 23:43:27 222 1

原创 天池:新闻文本分类-NLP实践Note-03

Task3 基于机器学习的文本分类 在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习模型 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 机器学习有很多种.

2020-07-26 02:06:00 209

原创 天池:新闻文本分类-NLP实践Note-02

Task-02:数据读取与数据分析学习目标数据读取数据分析句子长度分析新闻类别分布字符分布统计作业分析结论 学习目标 使用Pandas读取数据 分析数据分布规律 数据读取 Pandas读取数据 train_text,这里为了方便只选取了其中1000条数据。 import pandas as pd train_df = pd.read_csv('/Users/apple/Downloads/LZY/Datawhale/2020年7月nlp实战组队/dataset/训练集/train_set.csv', s

2020-07-23 05:02:31 221

原创 天池:新闻文本分类-NLP实践Note-01

Task1 赛题理解赛题内容赛题数据数据标签评测指标解题思路 赛题内容 天池-新闻文本分类:https://tianchi.aliyun.com/competition/entrance/531810/information 赛题名称:天池-NLP之新闻文本分类 赛题目标:了解NLP的预处理、模型构建和模型训练等知识点。 赛题任务:以自然语言处理为背景,对新闻文本进行分类,这是一个典型的字符识别问题。 学习目标: 理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路 赛题数据 赛题以

2020-07-21 23:56:15 346

原创 #Python#学习打卡

【Day 1】   学习: 1.环境搭建;  anaconda环境配置; 解释器        例如CPython,注意与编译器的区别。解释器是一条一条的解释执行源语言,而编译器是把源代码整个编译成目标代码,执行时不在需要编译器,直接在支持目标代码的平台上运行,这样执行效率比解释执行快很多 --------------------------- 2.python初体验;  print an...

2019-01-26 23:31:59 338

初级算法梳理笔记.docx

机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证 线性回归的原理 线性回归损失函数、代价函数、目标函数 优化方法(梯度下降法、牛顿法、拟牛顿法等) 线性回归的评估指标 sklearn参数详解

2019-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除