自然语言处理
和你在一起^_^
see you bet
展开
-
【最新全面】NLP新手学习指南
PART1: 基础篇自然语言处理概述| 什么是自然语言处理| 自然语言处理的现状和前景| 自然语言处理应用| 自然语言处理经典任务| 学习自然语言处理技术数据结构与算法基础| 时间复杂度、空间复杂度| 斐波那契数列的时间和空间复杂度| 动态规划算法| 经典的DP问题| 练习:DP问题的代码解法| 专题:时序分析中的DTW算法机器学习基础 - 逻辑回归| 分类问题以及逻辑回归重要性| 逻辑回归的条件概率| 最大似然估计| 构建逻辑回归的目标函数| 优化与梯度下降法| 随原创 2020-12-31 12:59:52 · 598 阅读 · 0 评论 -
关系抽取和事件抽取的一些任务特色
关系抽取1. 评测背景:知识是机器语言理解与交互的重要基础机器语言理解与交互是人工智能的基本挑战,五大任务助力 (机器阅读理解、面向推荐的对话、语义解析、关系抽取、事件抽取)知识是机器语言理解与交互的重要基础关系抽取是知识获取的重要方式知识图谱2. 评测任务:schema约束下的SPO抽取任务任务描述:抽取输入句子中所有符合schema约束的SPO三元组输入:预定义schema& 句子输出:SPO三元组任务特色:挑战关系抽取模型较难解决的问题重叠关系抽取问题复杂关系抽原创 2020-05-27 15:19:19 · 1640 阅读 · 2 评论 -
概率图模型学习笔记:HMM,MEMM,CRF
一、写在前面Preface今天看到了之前收藏吃灰的一篇写的很好的概率图的学习笔记,自己也想总结一下,今天还有很多事情都没有完成,看到了之后就觉得可以花一些时间好好研究一下,总结一些这段时间的研究,因为之前在B站了完整看了sh大佬的视频讲解,对于HMM 还有MEMM,CRF也有一些自己的理解,今天正好趁着这个机会,一鼓做气都写一下,不往这段时间的投入,之后也不知道会不会用起,但希望想起来的时候我可以说,我曾经爱过~因为接触了NLP相关的东西,不得不学习这些传统的序列模型,面试的时候也有人问我这些模型,但只原创 2020-05-22 16:23:22 · 1343 阅读 · 0 评论 -
【百度LIC2020事件抽取赛道】赛后小结(小白篇,大佬略过)
讲在前面这次比赛对我来说是首次参加百度举办的比赛,也是第一个事件抽取方向的比赛,整体来说熟悉事件抽取的模型,以及相关的操作为主,最高得分F1,0.796分,不能算是高分,在这里对整个比赛过程,以及自己的一个情况做一个小结梳理,为下次比赛做好准备工作,还是比较小白的,但是在这次比赛中也收获了很多实战的经验,奈何各位大神云集,竞争激烈,对我个人而言,熟悉模型,熟悉比赛模式,收获经验为主!大佬请关掉网页2333本次赛题属于一个多分类,多标签的问题,文本先要进行事件分类,之后进行事件抽取,将论元和内容进行抽取,原创 2020-05-21 15:04:22 · 5283 阅读 · 9 评论 -
事件抽取模型(基于paddlehub)深度解析
问题描述事件抽取 (Event Extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术。事件抽取是智能风控、智能投研、舆情监控等人工智能应用的重要技术基础,受到学术界和工业界的广泛关注。事件抽取任务涉及事件句抽取、触发词识别、事件类型判别、论元抽取等复杂技术,具有一定的挑战。环境准备python适用版本 3.7.x(本代码测试时使用依赖见 ./requir...原创 2020-05-06 18:14:00 · 2583 阅读 · 3 评论 -
bert4keras 测试代码可用性: 提取特征
bert4keras#! -*- coding: utf-8 -*-# 测试代码可用性: 提取特征from bert4keras.backend import kerasfrom bert4keras.models import build_transformer_modelfrom bert4keras.tokenizers import Tokenizerimport numpy...原创 2020-04-27 14:22:31 · 2326 阅读 · 2 评论 -
DL4NLP —— 序列标注:BiLSTM-CRF模型做基于字的中文命名实体识别
原文地址 Z:三个月之前 NLP 课程结课,我们做的是命名实体识别的实验。在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。小白...原创 2020-04-22 14:10:00 · 1501 阅读 · 0 评论 -
使用BERT生成句向量
转载请注明出处,原文地址在阅读本文之前如果您对BERT并不了解,请参阅我的其他博文BERT完全指南简介之前的文章介绍了BERT的原理、并用BERT做了文本分类与相似度计算,本文将会教大家用BERT来生成句向量,核心逻辑代码参考了hanxiao大神的bert-as-service,我的代码地址如下:代码地址:BERT句向量传统的句向量对于传统的句向量生成方式,更多的是采用word emb...原创 2020-04-21 18:29:17 · 1585 阅读 · 0 评论 -
在使用BERT中的一些参数记录
batch_size:每批数据量的大小。DL通常用SGD的优化算法进行训练,也就是一次(1 个iteration)一起训练batchsize个样本,计算它们的平均损失函数值,来更新参数。iteration:1个iteration即迭代一次,也就是用batchsize个样本训练一次。epoch:1个epoch指用训练集中的全部样本训练一次,此时相当于batchsize 等于训练集的样...原创 2020-04-17 12:56:53 · 3159 阅读 · 0 评论 -
基于keras的BiLstm与CRF实现命名实体标注
基于keras的BiLstm与CRF实现命名实体标注众所周知,通过Bilstm已经可以实现分词或命名实体标注了,同样地单独的CRF也可以很好的实现。既然LSTM都已经可以预测了,为啥要搞一个LSTM+CRF的hybrid model? 因为单独LSTM预测出来的标注可能会出现(I-Organization->I-Person,B-Organization ->I-Person)这样的...转载 2020-04-16 16:09:35 · 1195 阅读 · 0 评论 -
tensorflow have no attribute enable_eager_execution() 问题解决
请问,你想运行上列中的代码,导致报错,你的tensorflow版本为多少呢?如果为2.0 或2.0以上,那么请看下文:2.0版本移除了直接调用enable_eager_execution() 的方式。也就是新版本无法使用命令:tf.enable_eager_execution()原因:新版本将enable_eager_execution()放入了compat.v1内部。解决办法:将代码更...原创 2020-04-16 15:26:40 · 2931 阅读 · 0 评论 -
[深度学习] 自然语言处理--- 基于Keras Bert使用(上)
1. bert– keraskeras_bert 是 CyberZHG 封装好了Keras版的Bert,可以直接调用官方发布的预训练权重。github:https://github.com/CyberZHG/keras-bert快速安装:pip install keras-bertbert4keras是封装好了Keras版的Bert,可以直接调用官方发布的预训练权重。(支持tf2)git...原创 2020-04-15 18:35:38 · 4080 阅读 · 0 评论 -
Python sklearn 中的TfidfVectorizer参数解析
Python中的TfidfVectorizer参数解析源码阅读 阅读源码真香的呢,感觉虽然目前还不是很懂,但是很清晰知乎大牛文章函数原型函数参数 smooth_idf函数属性 df_函数方法 fit fit_transform inverse_transform(use_idf 不加的话等同于CountVectorizernorm 归一化处理,每一维度除以向量的模关于参数:参考链接tf∗(1+...原创 2020-04-10 16:29:55 · 15708 阅读 · 2 评论 -
fastText原理和文本分类实战,看这一篇就够了
Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding源码+数据Github网址: 词向量预训练实现Github原创 2020-03-23 19:18:49 · 445 阅读 · 0 评论 -
NLP系列(一)pkuseg-python:一个高准确度的中文分词工具包
pkuseg-python1 简介2 编译和安装3 性能对比4 使用教程代码实例1 使用默认模型及默认词典分词代码示例2 设置用户自定义词典代码示例3 指定模型代码示例4 支持多线程代码示例5 训练模型5 参数说明迭代器(iterator)6 相关论文1 简介pkuseg-python简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。pkuseg是由北京大学语言计算与机器...原创 2020-03-22 16:16:15 · 1605 阅读 · 0 评论 -
疫情期间网民情绪识别
数据简介数据集依据与“新冠肺炎”相关的230个主题关键词进行数据采集,抓取了2020年1月1日—2020年2月20日期间共计100万条微博数据,并对其中10万条数据进行人工标注,标注分为三类,分别为:1(积极),0(中性)和-1(消极)。数据说明竞赛数据以csv格式进行存储,包括nCoV_100k.labled.csv和nCoV_900k.unlabled.csv两个文件,其中:nCoV_...原创 2020-03-07 11:50:12 · 4839 阅读 · 2 评论 -
【自然语言处理基础技能(NLP)】语言模型基础
文章目录一瞥1. 引言:朴素贝叶斯的局限性2. N-gram语言模型是啥?2.1从假设性独立到联合概率链规则2.2 从联合概率链规则到n-gram语言模型2.3 怎样选择依赖词的个数"n"?3. N-gram实际应用举例3.1 词性标注3.2 垃圾邮件识别3.3 中文分词3.4机器翻译与语音识别4. 平滑技术4.1 拉普拉斯平滑4.2 古德图灵(Good Turing)平滑4.3 组合估计平滑5....原创 2020-02-25 17:13:42 · 411 阅读 · 0 评论 -
【深度学习】自然语言处理 --- 理解Google最强NLP模型: BERT
BERT简介NLP:自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。Google AI 团队提出的预训练语言模型 BERT(Bidirectional Encoder Representations from Transformers)BERT,全称是 Pre-training of Deep Bidirectional Transformers f...原创 2019-12-24 13:38:41 · 1174 阅读 · 0 评论 -
【自然语言处理】NLP特征的案例分析
NLP分类任务示例文本分类:语言识别文本分类:主题分类文本分类:作者归属上下文中的单词:词性标注上下文中的单词:命名实体识别上下文中的单词的语言特征:介词词义消岐上下文中的单词的关系:弧分解分析文本分类:语言识别语言识别的任务中,希望将其归类成一组固定的语言,字母级二元文法词袋是这个任务中一个非常强的表示,二阶字母对是一个核心特征,文档中的计数;编码检测,相应的特征是字节级...原创 2019-12-19 23:21:43 · 1090 阅读 · 0 评论 -
基于深度学习的命名实体识别与关系抽取
基于深度学习的命名实体识别与关系抽取【备注:此博文初次编辑为2019年12月19日,最新编辑为2019年12月19日】摘要:构建知识图谱包含四个主要的步骤:数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素:命名实体识别(NER)、实体关系抽取(RE) 和 属性抽取。其中属性抽取可以使用python爬虫爬取百度百科、维基百科等网站,操作较为简单,因此命名实...原创 2019-12-19 16:25:17 · 3397 阅读 · 3 评论 -
nltk学习之统计词频和分词nltk.word_tokenize nltk.FreqDist
分词(1)可以使用split()函数import nltkimport numpy as npimport refrom nltk.corpus import stopwords #1 分词1text = "Sentiment analysis is a challenging subject in machine learning.\ People express thei...原创 2019-11-15 16:49:00 · 3210 阅读 · 0 评论 -
Word2Vec教程(2)- Negative Sampling
在word2vec第二部分教程中(这里是第一部分part1)我将会讨论一些在原有skip-gram 模型基础上 额外的小trick,使模型训练可行。当你读到skip-gram model 的时候,你可能会觉得它是一个很大的网络。(译者按:其实对于现在6G/8G/12G的GPU来说,还是挺小的)在例子中,我给出了 300个神经元,和10,000个词的词典。考虑输入层和输出层,他们各自会产生 3...原创 2019-11-04 16:03:35 · 532 阅读 · 0 评论 -
Word2Vec教程 - Skip-Gram模型
翻译原始链接: http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/这个教程包含 训练word2vec的 skip-gram 模型。通过这个教程,我希望跳过常规Word2Vec 的介绍和抽象理解, 而是去讨论一些细节。特别是skip gram的网络结构。模型skipgram model 常常让人惊讶于...原创 2019-11-04 15:50:40 · 274 阅读 · 0 评论 -
【全面】《斯坦福CS224n NLP》 学习大纲&资料&笔记
斯坦福CS224n自然语言处理课-学习大纲-为期13周说明每周具体学习时间划分为4个部分:1部分安排周一到周二2部分安排在周四到周五3部分安排在周日4部分作业是本周任何时候空余时间周日晚上提交作业运行截图Week11、深度学习介绍2、自然语言处理介绍3、自然语言应用领域论文带读:一个简单但很难超越的Sentence Embedding基线方法作业:Softmax 算法和...原创 2019-11-03 21:59:35 · 659 阅读 · 1 评论 -
【自然语言处理】隐马尔科夫模型HMM(一)HMM模型
隐马尔科夫模型HMM(一)HMM模型原创 2019-10-31 23:06:16 · 204 阅读 · 0 评论 -
【自然语言处理】jieba分词模块主要
文章目录一瞥0.安装1.特点2.主要功能2.1分词2.1.1 CUT函数介绍2.2词性标注2.3词语出现的位置2、词典2.1、默认词典载入词典基于 TF-IDF 算法的关键词抽取并行分词词语在原文的位置延迟加载命令分词0.安装法1:Anaconda Prompt下输入 conda install jieba法2:Terminal下输入 pip3 install jieba1.特点支持繁...原创 2019-10-31 22:25:23 · 1022 阅读 · 0 评论