自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 阿里天池NLP入门——新闻文本分类(6)基于深度学习的文本分类3

上一章节采用Word2Vec做向量表示,通过TextCNN以及TextRNN的深度学习模型来做文本分类。这一章节采用bert微调,将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。 import logging import random import numpy as np import torch logging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s

2020-08-05 11:42:45 433

原创 阿里天池NLP入门——新闻文本分类(5)基于深度学习的文本分类2

学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Part3 词向量 基本思想 基于词的上下文环境进行预测,对于每一条输入文本,选取一定大小的窗口的上下文和一个中心词,并基于这个中心词去预测窗口内其他词出现的概率。 基本思路 通过单词和上下文彼此预测 两种算法 Skip-grams (SG):由中心词预测上下文 Continuous Bag of Words (CBOW):由上下文预测目标单词

2020-07-31 23:10:32 417

原创 阿里天池NLP入门——新闻文本分类(4)基于深度学习的文本分类1

基于深度学习的文本分类 与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。 学习目标 1.学习FastText的使用和基础原理 2.学会使用验证集进行调参 文本表示方法 Part2 现有文本表示方法的缺陷 在上一章节,我们介绍几种文本表示方法: One-hot Bag of Words N-gram TF-IDF 也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,

2020-07-27 23:02:26 496

原创 阿里天池NLP入门——新闻文本分类(3)基于机器学习的文本分类

基于机器学习的文本分类 在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 机器学习模型 机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。 机器学习有很多种分支,对于学习者来说应该优先

2020-07-25 23:29:43 527

原创 DataWhale | Python编程基础 学习笔记分享03——异常处理

异常处理 异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。 1.Python标准异常总结 BaseException:所有异常的 基类 Exception:常规异常的 基类 StandardError:所有的内建标准异常的基类 ArithmeticError:所有数值计算异常的基类 FloatingPointError:浮点计算异常 OverflowError:数值运算超出最大限制 ZeroDivisionErr

2020-07-25 21:48:30 84

原创 DataWhale | Python编程基础 学习笔记分享02——条件语句、循环语句

文章目录一、条件语句1.1 if 语句1.2 if-else语句1.3 if-elif-else语句1.4 assert关键词二、循环语句2.1 while循环2.2 while - else 循环2.3 for 循环2.4 for - else 循环三、迭代器3.1 range() 函数3.2 enumerate() 函数四、推导式4.1 列表推导式4.2 元组推导式4.3 字典推导式4.4集合推导式练习题 一、条件语句 1.1 if 语句 if expression: expr_true_suite

2020-07-23 23:14:18 173

原创 阿里天池NLP入门——新闻文本分类(2)数据读取与数据分析

数据读取 import pandas as pd data=pd.read_csv('train_set.csv',sep='\t') data.head() 数据可视化与分析 新闻长度分析 train_df['text_len']=train_df['text'].apply(lambda x: len(x.split(' '))) print(train_df['text_len'].describe()) apply后是对text字段运用的函数 describe是对字段基本统计 每条新闻平

2020-07-22 23:37:38 576

原创 DataWhale | Python编程基础 学习笔记分享01——变量、运算符、位运算和数据类型

一、变量、运算符与数据类型 1.1 注释的方式 1.1.1 单行注释 在Python中,#是表示注释,作用与整行 1.1.2 多行注释 ‘’‘注释内容’’'或者""“注释内容”""表示注释 如: ''' 我被注释了! (多行注释) ''' # ↑注释(我是单行注释) x = '我才是代码!' # ↓注释(我也是单行注释) """ 我也被注释了! (多行注释) """ 1.2 运算符 运算符就很easy了 操作符 名称 + 加 - 减 * 乘 / 除 // 整除 %

2020-07-22 22:45:40 132

原创 阿里天池NLP入门——新闻文本分类(1)赛题理解

赛题理解 1.赛题名称:零基础入门NLP之新闻文本分类。 2.赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 3.赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 赛题数据 数据下载链接:link. 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、

2020-07-21 21:32:24 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除