自然语言处理
文章平均质量分 96
Turbo_Come
耐得住寂寞,
才可守得住繁华!!!
展开
-
朴素贝叶斯,TF-IDF实现文本分类
TF-IDF概述TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都会出现...原创 2019-04-22 17:44:22 · 9832 阅读 · 3 评论 -
NLP、神经网络基本知识
NLP:1、 词法分析:分词技术、词性标注、命名实体识别、词义消歧 词性标注:确定词性 命名实体识别:识别文本中具体意义的实体 (实体边界识别、确定实体类别(英文、中文))NLP语言模型: Unigram models (一元文法统计模型) N-gram语言模型(N元模型)Word2vec 是将 词向量 转化成 矢量...原创 2019-05-13 21:48:11 · 719 阅读 · 0 评论 -
自动写诗APP项目、基于python+Android实现(技术:LSTM+Fasttext分类+word2vec+Flask+mysql)第一节
首先,展示一下项目最终结果: 寒梅 腊雪初开绿阴雨, 疏疏深处不相侵。 数点花枝无限意, 寒梅一片雪中吟。没做押韵处理时,生成的诗歌: 秋思 ...原创 2019-06-28 22:26:03 · 1261 阅读 · 1 评论 -
自动写诗APP项目、基于python+Android实现(技术:LSTM+Fasttext分类+word2vec+Flask+mysql)第二节
一:诗歌分类首先,从网上搜集到近30万首诗歌,但这些诗歌并没有明确分类。为了将诗歌进行分类,在古诗文网(https://www.gushiwen.org/)上分别爬取边塞征战、写景咏物、山水田园、思乡羁旅、咏史怀古五类诗歌各600首,用于做分类的训练数据集。由这些数据训练得到一个分类模型,由此分类模型对那30万首诗歌进行分类。数据集(5类诗歌数据600*5+Fasttext.model分类...原创 2019-06-29 15:59:12 · 1078 阅读 · 1 评论 -
自动写诗APP项目、基于python+Android实现(技术:LSTM+Fasttext分类+word2vec+Flask+mysql)第三节
二、用户主题词分类,相似词生成1.word2vec模型原理 在主题词分类、候选词生成、选取时,都使用了word2vec模型。word2vec模型主要包含两部分:跳字模型(skip-gram)和连续词袋模型(CBOW),和两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较...原创 2019-07-19 13:48:53 · 1201 阅读 · 1 评论 -
自动写诗APP项目、基于python+Android实现(技术:LSTM+Fasttext分类+word2vec+Flask+mysql)第四节
三、LSTM模型搭建 生成诗歌模型主要是基于隐马尔可夫原理,从时间序列的随机事件中,统计前后状态转化的概率。在此模型当中,就是根据给定的第一个字(即前一阶段已选择出来的与主题词最相似的候选词集合),来生成它后面出现的最大概率的字。1、 诗句到向量的转换 因为诗歌是古人智慧的结晶,文学的高度凝练。在此,并不能像普通文本那样简单的做分词处理。而是以字为单位,来做诗句到向量...原创 2019-08-16 20:29:06 · 1759 阅读 · 0 评论 -
自动写诗APP项目、基于python+Android实现(技术:LSTM+Fasttext分类+word2vec+Flask+mysql)第五节
第五节主要是介绍后端服务器、前端APP,及在Mysql数据库中,用户的信息存储。一、封装数据库连接类:import pymysql# 封装数据库连接类class SunckSql(): def __init__(self,host , user, passwd , dbName): self.host = host # 主机IP地址 s...原创 2019-08-23 12:04:04 · 622 阅读 · 0 评论