自然语言
翎修阳
这个作者很懒,什么都没留下…
展开
-
12_16下午
递归神经网络-序列,文本全连接不能考虑语序递归可考虑序列the(t1) cat(t2) eat the mouse```(tn)时间步RNN:梯度消失:参数不能更新LSTM:RNN的变体v为矩阵变换后的输入缓解梯度消失的问题,处理长度比较长的序列输入是序列,输出也是序列只拿最后一个时间步的输出去预测确保数据的形状是正确的,以便在...原创 2019-12-16 14:02:29 · 69 阅读 · 0 评论 -
12_16上午
使用 CountVectorizer 对象为每个词创建二进制值vectorizer =CountVectorizer(lowercase=True, analyzer='word', binary=True) ##TODO## : Use CountVectorizer to create a binary value for each wordrepresentation = vecto...原创 2019-12-16 11:33:15 · 205 阅读 · 0 评论 -
自然语言学习02-简单好用的中文分词利器 jieba 和 HanLP
jieba 分词jieba 安装jieba 的分词算法主要有以下三种:基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG); 基于DAG图,采用动态规划计算最大概率路径(最有可能的分词结果),根据最大概率路径分词; 对于新词(词库中没有的词),采用有汉字成词能力的 HMM 模型进行切分。引入 jieba 和语料...原创 2019-10-13 12:53:14 · 359 阅读 · 0 评论 -
自然语言学习01
按照中文语料处理的过程,在获取到语料之后开始分词,分词之后可以进行一些统计和关键字提取,并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量,把文本数据转换成计算机可以计算的矩阵向量。后续从机器学习简单的有监督分类和无监督聚类入手,到深度学习中神经网络的应用,以及简易聊天机器人和知识图谱的构建。结构化数据、半结构化和非结构化数据对于结构化数据而言:关系型数据库...原创 2019-09-09 20:13:48 · 517 阅读 · 0 评论