自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)

原创 python包成功安装方式汇总(持续更新)

写在前面,因为最近刚换电脑,jupyter notebook重新安装了,很多之前安装过的包又要重新安装了,所以这里正好用这篇博客记录一下安装的各种历程,因此会持续更新~gensim直接pip install gensim失败(Windows系统),根据一个博主的方法,试了改timeout时间:pip --default-timeout=1000 install -U pip,然后python -m pip install --user gensim但是依然报错。。然后在评论区看到一个解决方法,.

2020-08-18 16:31:42 41

原创 ARIMA原理简单介绍

Autoregressive Integrated Moving Average (ARIMA)ARIMA,自回归差分移动平均模型,通过采用过去的观测结果,并考虑差分、自回归和移动平均分量来分离信号和噪声。可以通过最小化AIC来寻找最优的模型参数。AIC准则是由日本统计学家Akaike与1973年提出的,全称是最小化信息量准则(Akaike Information Criterion)。它是拟合精度和参数个数的加权函数:AIC=2(模型参数的个数)-2ln(模型的极大似然函数)ARIMA模型主要由

2020-08-13 10:17:46 65

原创 NLP入门--新闻文本分类Task6

Task6 基于深度学习的文本分类3学习目标Transformer基于预训练语言模型的词表示ELMoGPTBERT总结这个task仍然是基于深度学习的文本分类。学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetuneTransformer模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。其中,在编码部分每个结构都是一样的,每个编码器的详细结构又包括两

2020-08-02 14:47:40 69

原创 NLP入门--新闻文本分类Task5

Task5 基于深度学习的文本分类2学习目标文本表示方法 Part3词向量( word2vec)基本思想基本思路两种算法两种加快训练的方法TextCNNTextRNN本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量( word2vec)基本思想基于词的上下文环境进行预测,对于每一条输入文本,选取一定大小的窗口的上下文和一个中心词,并基于这个

2020-07-30 11:25:31 58

原创 NLP入门--新闻文本分类Task4

Task4 基于深度学习的文本分类1学习目标现有文本表示方法的缺陷FastText基于FastText的文本分类安装分类模型之前介绍了如何使用传统机器学习方法去解决文本分类问题,而本章将基于深度学习,探索如何更好地解决文本分类问题。学习目标1、学习FastText的使用和基础原理2、学会使用验证集进行调参现有文本表示方法的缺陷在之前介绍了包括One-hot、Bag of words等等方法,但这些方法都只是对词的一种统计,并没有考虑词与词之间的关系,且得到的向量维度很高,在面对高维数据时容易发生

2020-07-29 08:22:08 25

原创 NLP入门--新闻文本分类Task3

Task3 基于机器学习的文本分类学习目标机器学习简介文本表示方法One-hotBag of Words在本章我们将开始使用机器学习模型来解决文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机器学习简介机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。文本表示方法在机器学习算法的训练过程中,假定给定N个样本

2020-07-24 16:22:58 21

原创 NLP入门--新闻文本分类Task2

NLP入门学习笔记TASK2数据读取数据分析句子长度分布新闻类别分布字符分布数据读取对于该数据集的读取基于pandas库。import pandas as pdtrain_df=pd.read_csv('C:/Users/Administrator/Desktop/wenbenfenlei/train_set.csv',sep='\t')train_df.head()第一行导入pandas工具库,第二行读取csv格式的训练集文件,第三行显示前五行的数据。结果如下:labeltext

2020-07-22 10:36:18 34

原创 NLP入门--新闻文本分类Task1

NLP入门学习笔记TASK1背景介绍数据下载和分析数据读取解题思路背景介绍本次学习任务是基于天池的nlp入门比赛–零基础入门之NLP文本新闻分类,该赛题以当下非常火热的自然语言处理为背景,要求选手使用模型对各种新闻文本语料进行分类,以提高分类精度为目标。数据下载地址为 [数据下载链接]数据下载和分析数据下载地址为 数据下载链接,该数据下载需要先报名对应的比赛,如下图所示点击报名完成相应报名步骤即可。从官网上下载得到的数据只是提供了压缩包的下载地址,需要自行去下载然后解压,最终会得到这样的几个数

2020-07-20 15:03:12 49

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除