自然语言处理
1. 讲述《NLP汉语自然语言处理原理与实践》-郑捷关键要点;
2. 讲述自然语言处理心得与体会。
一个小白的自述
工作不享受,享受不工作。
展开
-
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记
文章目录实体链接:概念理解一. 研究背景二. 应用场景示例一. 以实体为中心的精准信息聚合1. 跨社交网络的信息集成二. 构建知识库三. 关键技术一. 引用表构建二. 实体知识构建1. 实体知名度2. 实体上下文3. 实体语义关联度4. 文章主题三. 链接推理算法(一)局部推理(二)全局推理四. 总结实体链接:概念理解一. 研究背景信息过载:大数据时代,信息爆炸,直接导致信息过载;...原创 2019-06-22 11:21:53 · 3323 阅读 · 0 评论 -
CNN在NLP领域的应用-文本语义相似度计算
CNN在NLP领域的应用-文本语义相似度计算https://blog.csdn.net/diye2008/article/details/53762124转载 2019-06-21 17:52:46 · 2042 阅读 · 0 评论 -
三. CNLP-NLP-中文分词的流程
以HanLP为例子,讲解中文分词的流程HanLP的整体运行流程如下:原创 2019-06-20 14:04:59 · 735 阅读 · 0 评论 -
中文词向量的训练以及评估方法
项目主要包括不同参数下训练好的词向量项目地址:https://github.com/Embedding/Chinese-Word-Vectors目前中文词向量的训练主要有下面三种方法:一. word2vector二. Glove三. FastText...原创 2019-05-21 22:56:47 · 1928 阅读 · 0 评论 -
基于simhash的短文本去重
直接上代码#!/usr/bin/env python# -*- coding:utf-8 -*-# author:WWF# datetime:2019/3/26 9:37"""利用simhash进行文本去重"""from simhash import Simhash, SimhashIndeximport jiebaimport codecsimport datetime...原创 2019-05-09 22:35:55 · 1155 阅读 · 0 评论 -
FastText使用总结
一. 简介FastText是2016年由Facebook AI Research开源的算法,算法主要包含三个部分:模型架构,层次Softmax和N-gram特征。模型架构:FastText的模型架构和Word2Vec的CBOW模型类似。不同之处在于,FastText预测标签,而CBOW模型预测中间词; 层次Softmax:Softmax建立在哈弗曼编码的基础上,对标签进行编码,能够极大地...原创 2019-05-09 22:03:37 · 1094 阅读 · 0 评论 -
短文本相似度计算
短文本相似度计算引用CSDN**经典的一句话:调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步。文本相似度计算步骤如下:分词; def tokenization(self, line): result = [] words = jieba.lcut(line) for word in words: ...原创 2019-03-13 22:30:21 · 867 阅读 · 0 评论 -
一. 实体链接小结
【定义】实体链接(Entity linking,EL),将文本中的实体提及映射到给定的知识库(KB),在许多领域起到了非常有趣的基础作用,例如问题回答、语义搜索和信息提取。【主要阶段】(i)候选生成:为每个提及在KB中获得一组引用实体;(i i)命名实体消歧:通过计算提及和候选实体之间的相似度,并解决排序问题来选择可能的候选实体。我们将现有的实体链接模型分为两种:local model...转载 2019-06-22 09:22:03 · 3426 阅读 · 0 评论 -
二. CNLP-NLP-分词
中文分词-即将中文汉字序列切分成一个一个单独的词语,中文分词是NLP的第一步。一. pyltp安装pyltp:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyltp部署语言模型库:具体部署方法参考:哈工大语言云(LTP)本地安装使用及Python调用模型:链接: https://pan.baidu.com/s...原创 2019-06-07 18:26:48 · 327 阅读 · 0 评论 -
一. CNLP-NLP-简介
最近在拜读郑捷老师的《NLP汉语自然语言处理原理与实践》,姑且简称CNLP,在阅读的过程中,记录下自己的收获与心得,以便以后翻阅查看。自然语言处理的应用领域:信息检索、信息抽取、数据挖掘、舆情分析、文本摘要、自动问答系统等;自然语言处理的主要任务:从最初的对词的研究,发展到现在的对句子的研究,即对句法、句意、以及句子生成的研究,已经能够比较好的解决句子层面的问题,但还没达到解决篇章层面的问...原创 2019-06-07 15:59:46 · 1052 阅读 · 0 评论 -
中文摘要提取方法(一)
Three main method to extract text abstractOne: TextRankTwo: LexRankThree: seq2seq+attention参考:深度学习提取文本摘要文本摘要中的NLP技术原创 2019-05-15 22:57:23 · 4127 阅读 · 0 评论 -
bert absl.flags._exceptions.ValidationError: Flag --data_dir must be specified.
absl.flags._exceptions.ValidationError: Flag --data_dir must be specified.问题在运行bert分类脚本的时候,如果在shell里面执行,会报出–data_dir路径不对问题,尝试过如下:修改train.sh中–data_dir为绝对路径----失败–data_dir路径中添加引号–失败修改为./data –失败...原创 2019-10-10 11:56:10 · 2156 阅读 · 3 评论