- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 007_NLP_Task6 利用Text-CNN模型来进行文本分类
卷积运算的定义参考:https://www.cnblogs.com/lhuser/p/8414759.html卷积运算的动机参考:https://www.jianshu.com/p/e3824e8fd115一维卷积运算和二维卷积运算参考:https://www.cnblogs.com/dasein/p/5692153.html练习代码:#coding = utf...
2019-05-23 14:41:57 208
原创 007_NLP_Task6 FastText模型进行文本分类
神经网络基础学习链接:https://www.cnblogs.com/pinard/category/894694.htmlFastText模型进行文本分类#coding = utf-8#Author:Shanv#function:import pandas as pdimport numpy as npimport datetimeimport codecsimpor...
2019-05-22 11:21:14 282 2
原创 007_NLP_Task5
朴素贝叶斯(naïve beyes)原理:见:https://blog.csdn.net/u013710265/article/details/72780520利用朴素贝叶斯模型进行文本分类:#coding = utf-8#Author:Shanv#function:import pandas as pdimport numpy as npimport datetime...
2019-05-20 19:44:59 245
原创 007_NLP_Task4 从one-hot到word2vec
word2vecword2vec 2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应...
2019-05-18 18:04:25 245
原创 007_NLP_Task3 特征选择
Task3 特征选择 TF-IDF概述 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一...
2019-05-15 22:21:55 209
原创 007_NLP_Task2
语言模型基本概念 见学习链接:https://www.cnblogs.com/Dream-Fish/p/3963028.htmljieba分词主要功能1.分词#1.分词seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) # 全模式seg...
2019-05-13 17:38:24 175
原创 007_NLP_Task1
数据集内容:#coding = utf-8#Author:Shanvimport pandas as pdimport numpy as npimport codecsimport datetimefrom collections import Counterfrom prettytable import PrettyTable#数据集探索def load_data(fi...
2019-05-11 20:29:31 162
原创 007_NLP_预备任务
TensorFlow 安装 之前已经安装好了,版本:Anoconda3 5.2.0 Python 3.6.5 CUDA 10.1 cuDNN 7.5 TensorFlow-gpu 1.12.0TensorFlow基础1.构建计算图TensorFlow程序中,系统会自动维护一个默认的计算图,通过tf.get_default_graph函数可以获取当前默认的计算图。除...
2019-05-11 16:52:04 206
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人