![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 71
碧空之戈
这个作者很懒,什么都没留下…
展开
-
NLP实体命名识别之时间识别
本程序针对的是酒店的预定系统,已经将语音转换为中文文本的情况下,将时间转换为统一的格式输出。我们可能会遇到如“八月14”,“2018年6月”,“20160502”这样的格式,最后统一转换为Python中‘%Y-%m-%d %H:%M:%S’这种时间格式输出,下面展示的是整个程序最后的效果:text1 = '我要住到明天下午六点'print(text1, time_extract(text1...原创 2018-08-14 21:11:23 · 6000 阅读 · 0 评论 -
NLP之关键词提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词提取算法一般分为有监督和无监督两类有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且...原创 2018-09-12 11:36:52 · 18088 阅读 · 0 评论 -
Word2vec词向量工具带你发现不一样的《天龙八部》
词向量技术是将词语转化成为稠密向量。在自然语言处理应用中,词向量作为机器学习、深度学习模型的特征进行输入。因此,最终模型的效果很大程度上取决于词向量的效果。Word2vec 是 Google 在 2013 年开源的一款将词表征为实数值向量的高效工具,利用深度学习思想,通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word...原创 2018-10-17 23:22:50 · 1250 阅读 · 0 评论