Natural Language Processing
文章平均质量分 92
情怀丶
这个作者很懒,什么都没留下…
展开
-
中文分词引擎 java 实现 — 正向最大、逆向最大、双向最大匹配法
正向最大匹配法分词目标:在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。 算法流程:假设词典中最长的单词为 5 个(MAX_LENGTH),那么最大匹配的起始子串字数也为 5 个(1)扫描字典,测试读入的子串是否在字典中(2)如果存在,则从输入中删除掉该子串,重新按照规则取子串,重复(1)(3)如果不存在于字典中,则从右向左减少...原创 2018-02-22 05:04:40 · 7531 阅读 · 3 评论 -
基于 LSTM 的 Character-Level 文本生成模型
1. 序列数据的生成步骤Deep learning 产生序列数据的方法一般是用 RNN 来预测下一个或者多个 token,比如说给定输入 “the cat is on the ma”,那么网络就会训练数据并且产生目标”t”,这里的 token 可以是一个词或者一个字符,任何 Deep Learning 的网络都可以给下一个 token 的概率建模,我们将这个网络训练出来的模型称为 “语言模型”...原创 2018-03-06 13:24:40 · 8179 阅读 · 1 评论 -
深度学习(CNN RNN)在文本分类中的应用
一、文本分类历史上世纪 50 年代:专家规则(pattern)上世纪 80 年代:知识工程建立专家系统上世纪 90年代后:统计学习方法,人工特征工程 + 浅层分类模型特征工程机器学习的目标是把数据转换成信息,再提炼到知识的过程。特征工程没有很强的通用性,主要要结合对特征任务的理解,主要分为,文本预处理、特征提取、文本表示,将文本转换为计算机可以理解的形式,封装能...原创 2018-05-25 08:55:08 · 8841 阅读 · 0 评论 -
主题模型 LDA 入门(附 Python 代码)
一、主题模型在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。主题可以被定义为“语料库中具有相同词境的词的集合模式”,比如说,主题模型可以将“健康”,“医生”,“病人”,“医院” ...原创 2018-05-25 09:25:19 · 110102 阅读 · 70 评论 -
在深度学习时代如何用 HowNet 搞事情 | 讲座笔记
本文时清华大学刘知远教授于 2018 年 5 月 26 日在中关村分享 HowNet 讲座时记录的笔记。 讲座详情:https://mp.weixin.qq.com/s/QyRGYU8-Fl4VcJFuUPhoTQ一、深度学习特点分布式表示层次结构 二、自然语言的表示自然语言包含从汉字到文档的多粒度语言单位,词汇、短语、句子、文档语义符号表示:词袋模型(one ...原创 2018-05-26 23:38:44 · 3595 阅读 · 0 评论