- 博客(7)
- 资源 (3)
- 收藏
- 关注
转载 中文文本中的关键字提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。 ...
2018-12-31 23:14:21 8626 2
原创 结巴分词
Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,“结巴”中文分词目标是做最好的 Python 中文分词组件。 jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。基于前缀词典实现...
2018-12-31 22:31:11 2140
原创 自然语言处理评价指标
训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。具体有以下这些指标可以参考。1.错误率、精度、准确率、精确度、召回率、F1 衡量。错误率:是分类错误的样本数占样本总数的比例。对样例集 D,分类错误率计算公式如下精度:是分类正确的样本数占样本总数的比例。这里的分类正确的样本数指的不仅是正例分类正确的个数还有反例分类正确的个数。对样例集 D,精度计算公...
2018-12-30 21:11:41 2343
转载 文本类深度学习的四部曲
过去半年以来,自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式,该模式分为:embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来,并且剖析它在两个实例中的用法。人们在谈论机器学习带来的提升时,往往只想到了机器在效率和准确率方面带给人们的提升,然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性...
2018-12-30 20:29:59 463
转载 中文自然语言处理的完整流程
第一步:获取语料 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。(定义来源:百度百科)按语料来源,我们将语料分为以下两种:1.已有语料很多业务部门...
2018-12-30 20:12:43 814
原创 智能答疑系统
问答系统是目前自然语言处理领域中的研宄热点,它既能让用户通过自然语言直接发问,又能直接向用户返回精确、简洁的答案,而不是一系列相关网页。 从算法与模型上来说,问答系统主要分成两个流派,一派是搜索式问答,另一派则是基于端到端方法的生成式问答,近年来两个流派都得到了长足发展,涌现了很多优秀的论文。然而,当我们真正开始使用这些问答系统与算法时,就会发现其有两大严重的问题尚未...
2018-12-28 20:04:12 2224
原创 opencl 调试的坑
1、opencl 如果使用CUDA平台,不支持long long,或unsigned long long 作为核函数参数,如下 __kernel void SearchNonce( __global float *Matrix, //原始矩阵 unsigned long long StartNonce, //开始的nonce )只能改为uns...
2018-12-13 21:00:58 552
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人