自然语言处理
STHSF
深度学习,机器学习,自然语言处理,迁移学习, 博客移至https://sthsf.github.io/wiki
展开
-
python下结巴分词(jieba)学习笔记
特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2,支持繁体分词3,支持自定义词典安装1,Python 2.x 下的安装原创 2016-11-03 14:33:28 · 1766 阅读 · 0 评论 -
spark集群运行大数据集的word2vec问题汇总
对于大数据集的文本数据,使用spark运行word2vec时对spark的设置:首先word2vec暂时就不介绍了,在上代码之前我先简要介绍下我的数据,我使用的是新闻文本数据,分词之后初步统计大概有674608个词。(ps 我也不知道这数据量能不能算得上大数据),然后简单的调用spark中的word2vec程序,并且将运行的模型保存下来。我的spark设置大致如下上面是最基本的原创 2017-02-08 12:45:23 · 4684 阅读 · 2 评论 -
ValueError: Variable lstm_cell/rnn/multi_rnn_cell/cell_0/basic_lstm_cell/kernel already exists
写在前面最近在学习使用tensorflow构建language model,将其中遇到的问题记录下来,供大家参考,学习交流。原创 2017-07-11 10:41:07 · 20713 阅读 · 3 评论