NLP
文章平均质量分 50
ljtyxl
大数据,智能算法研究,包括机器学习,深度学习,强化学习nlp等在推荐领域的应用和智能算法研究,比赛之类的合作联系qq:1329331182,wx:ljt1761
展开
-
总结01-bms-molecular-translation分子翻译大赛
文档:总结01-bms-molecular-translation分子...链接:http://note.youdao.com/noteshare?id=543f3bc7de290f0abb9df2256331ca05&sub=62CD335393784D7F91217A29F4C50104原创 2021-05-16 22:08:08 · 283 阅读 · 0 评论 -
Text Classification with BERT using Transformers for long text inputs
文档:Text Classification with BERT using ...链接:http://note.youdao.com/noteshare?id=aea64a71f9f7100b16b7effac9f9435d&sub=EF1AF825F78A49CBB3B81675F9462610翻译 2021-05-14 10:11:36 · 213 阅读 · 0 评论 -
attention的前世今生
Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射参考:https://www.zhihu.com/question/68482809原创 2021-03-05 09:56:50 · 459 阅读 · 0 评论 -
Stanford CoreNLP服务器
CoreNLP服务器入门 API文档 使用CoreNLP进行批注:/ 查询TokensRegex:/tokensregex 查询Semgrex:/semgrex Java客户端 通过其他编程语言使用 服务器管理 启动服务器 搬运工人 停止服务器 添加用户名/密码验证 命令行标志 专用服务器 怪癖和细微之处 字符编码 默认属性 未...翻译 2019-04-14 20:47:44 · 2877 阅读 · 2 评论 -
Stanford CoreNLP - 自然语言软件
关于Stanford CoreNLP提供了一套人类语言技术工具。它可以给出单词的基本形式,它们的词性,它们是公司名称,人物等等,标准化日期,时间和数字量,用短语和句法依赖关系标记句子结构,指示其中名词短语指的是相同的实体,表示情感,提取实体提及之间的特定或开放式关系,得到人们所说的引用等。如果您需要,请选择Stanford CoreNLP:集成的NLP工具包,提供广泛的语法分析工具 ...原创 2019-04-14 20:45:22 · 1414 阅读 · 0 评论 -
nlp中的Attention注意力机制+Transformer详解
本文以QA形式对自然语言处理中注意力机制(Attention)进行总结,并对Transformer进行深入解析。目录一、Attention机制剖析1、为什么要引入Attention机制?2、Attention机制有哪些?(怎么分类?)3、Attention机制的计算流程是怎样的?4、Attention机制的变种有哪些?5、一种强大的Attention机制:为什么自注意力模型(se...转载 2019-04-17 00:12:28 · 5154 阅读 · 0 评论 -
Memory Networks
原文这一篇会覆盖下面三个版本的 Memory NetworksMemory Network with strong supervision End-to-End Memory Network Dynamic Memory Network涉及下面一些论文:Memory Networks (2015) End-To-End Memory Networks (2015) Ask M...转载 2019-04-17 00:11:33 · 792 阅读 · 0 评论 -
Knowledge Graph - NLP
知识抽取-事件抽取知识抽取-实体及关系抽取Neo4j Cypher Cheetsheet转载 2019-04-13 22:47:18 · 574 阅读 · 0 评论 -
Crawler 爬虫
爬虫总结--汇总贴爬虫总结(五)-- 其他技巧爬虫总结(四)-- 分布式爬虫爬虫总结(三)-- cloud scrapy爬虫总结(二)-- scrapy爬虫总结(一)-- 爬虫基础 & python实现...原创 2019-04-13 22:46:13 · 687 阅读 · 0 评论 -
Chatbot - NLP
QA system - Question GenerationNLP 笔记 - Question Answering System聊天机器人和智能客服(笔记)论文笔记 - Learning to Remember Translation History with a Continuous Cache论文笔记 - Memory Networks论文笔...原创 2019-04-13 22:45:08 · 271 阅读 · 0 评论 -
CMU 11611 -NLP
ParseTree操作若干-Tregex and Stanford CoreNLPNLP 笔记 - 平滑方法(Smoothing)小结NLP笔记 - Information ExtractionNLP 笔记 - Dependency Parsing and TreebankNLP 笔记 - Constituency ParsingNLP 笔记 - ...原创 2019-04-13 22:40:54 · 834 阅读 · 0 评论 -
Stanford NLP - 命名实体识别 - NERClassifierCombiner
命名实体识别 - NERClassifierCombiner描述 选项 NER管道概述 统计模型 数字序列和SUTime 细粒度NER RegexNER规则格式 自定义细粒度NER 额外的TokensRegexNER规则 额外的TokensRegex规则 实体提及检测 命令行示例 Java API示例 SUTime 设置文档日期 获取实体信心...翻译 2019-04-14 20:59:17 · 3967 阅读 · 0 评论 -
HanLP: Han Language Processing
自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。HanLP提供下列功能:中文分词 HMM-Bigram(速度与精度最佳平衡;一百...原创 2019-04-14 22:41:13 · 1222 阅读 · 0 评论 -
命名实体识别研究综述
命名实体识别研究进展综述1 引 言命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类[1]。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数...原创 2019-04-15 00:35:18 · 14003 阅读 · 0 评论 -
开源的文本标注工具
## 开源的标注工具自然语言处理标记工具汇总https://blog.csdn.net/wangyizhen_nju/article/details/94559607spacy原来有两个标注工具,displaCy-ent和displaCy,一个ner一个依赖关系.Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文...原创 2019-09-26 11:18:04 · 10181 阅读 · 4 评论 -
最常见30种NLP任务练手项目汇总
1.分词 Word Segmentationchqiwang/convseg ,基于CNN做中文分词,提供数据和代码。2.词预测 Word PredictionKyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。3. 文本蕴涵 Textual EntailmentSteven-Hewitt/Entailment-with-Tens...转载 2019-05-18 20:19:40 · 1988 阅读 · 0 评论 -
主题模型LDA理解与应用
本文主要用于理解主题模型LDA(Latent Dirichlet Allocation)其背后的数学原理及其推导过程。本菇力求用简单的推理来论证LDA背后复杂的数学知识,苦于自身数学基础不够,因此文中还是大量引用了各方大神的数学推导细节,既是为了方便自己以后回顾,也方便读者追本溯源,当然喜欢直接看应用的读者可直接翻到第二章~基本目录如下: LDA的原理 1.1 先导数学知识准备 1....转载 2019-05-07 23:09:06 · 1116 阅读 · 1 评论 -
李航教授展望自然语言对话领域:现状与未来
机器之心专栏,作者:李航,字节跳动 AI Lab。原华为诺亚方舟实验室主任、现已加入字节跳动 AI Lab的李航教授近日发表博客,对自然语言对话领域的现状和最新进展进行总结,并展望了未来的走向。本文内容朴实,既重视整体格局和跨领域思维,又能着眼于现实条件,富有启发性。1.引言语音助手、智能客服、智能音箱、聊天机器人,近年各种自然语言对话系统如雨后春笋般地涌现,有让人眼花缭乱的感觉。一方...转载 2019-04-19 20:08:57 · 263 阅读 · 0 评论 -
五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
最近玩公众号会话停不下来:玩转腾讯词向量:Game of Words(词语的加减游戏),准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公众号后台聊天机器人添加了一项新技能:中文分词线上PK,例如在AINLP公众号后台对话输入:中文分词 我爱自然语言处理,就可以得到五款分词工具的分词结果:现在的开源中文分词工具或者模块已经很丰富了,...转载 2019-05-01 21:00:02 · 5662 阅读 · 0 评论 -
主题模型综述
基础入门 中英文博客以及基础文章 Topic model 介绍 简介:简要了解主题模型是什么意思,最基本的概念https://en.wikipedia.org/wiki/Topic_model 概率主题模型简介 Introduction to Probabilistic Topic Models 简介:一步让你知道什么是lda,翻译了提出主题模型大神对概率主题模型的描述。中...转载 2019-04-27 16:00:28 · 2004 阅读 · 0 评论 -
神经网络进行自然语言处理最佳实践
原文简介本文是一系列关于如何使用神经网络进行自然语言处理(NLP)的最佳实践汇集,将随着新观点的出现定期进行更新,从而不断提升我们对用于 NLP 的深度学习的理解。NLP 社区中有这样一句说法:带有注意力的 LSTM 能在所有任务上实现当前最佳的表现。尽管在过去的两年这确实是真的,NLP 社区却在慢慢偏离带有注意力的 LSTM,而去发现更有趣的模型。但是,NLP 社区并非想再花费...转载 2019-04-22 23:40:37 · 781 阅读 · 0 评论 -
Deep Learning for NLP Best Practices
原文Table of contents:Introduction Best practices Word embeddings Depth Layer connections Dropout Multi-task learning Attention Optimization Ensembling Hyperparameter optimization LSTM tr...转载 2019-04-22 22:37:35 · 537 阅读 · 0 评论 -
递归神经网络的非零初始状态
递归神经网络的非零初始状态2016年11月20日星期日原文初始化RNN状态的默认方法是使用零状态。这通常很有效,特别是对于序列到序列的任务,如语言建模,其中受初始状态影响很大的输出比例很小。然而,在某些情况下,(1)训练初始状态作为模型参数,(2)使用嘈杂的初始状态,或(3)两者都是有意义的。这篇文章简要介绍了训练有素和嘈杂的初始状态背后的基本原理,并介绍了Tensorfl...翻译 2019-04-22 22:28:01 · 858 阅读 · 0 评论 -
HanLP1.5.2 -python使用介绍
自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁http://hanlp.com/https://github.com/hankcs/HanLPHanLP: Han Language Processing之前需要做一个中文命名实体识别的api,看完了一些相关论文以后觉得短时间内自己实现不大现实,于是找了一些开源...原创 2019-04-15 00:51:26 · 1263 阅读 · 0 评论 -
记忆网络之在对话系统中的应用
记忆网络之在对话系统中的应用前面几天看了下Jason Weston等人在对话系统方面的工作,可以看成是对Memory Networks的扩展吧,应用到了对话领域中,主要看了下面三篇论文,基本上是按照发表时间顺序来的,接下来我们逐篇来介绍一下其主要工作内容:evaluating prerequisite qualities for learning end-to-end dialo...转载 2019-04-16 22:20:59 · 328 阅读 · 0 评论 -
Word2vec相似度模型 + Xgboost 在问题匹配上的应用(kaggle Quora Question Pairs)
kaggle Quora Question PairsIn[1]:import pandas as pdimport numpy as npimport gensimfrom fuzzywuzzy import fuzzfrom nltk.corpus import stopwordsfrom tqdm import tqdm_notebookfrom nltk impor...原创 2019-04-05 13:11:22 · 2979 阅读 · 0 评论 -
卷积神经网络(TextCNN)在句子分类上的实现
本篇博客记录的是论文Convolutional Neural Networks for Sentence Classification中的实验实现过程,一篇介绍使用CNN对句子进行分类的论文。尽管网上有些代码已经实现了使用CNN进行句子分类(TextCNN),但是是基于Theano来实现的,本文将介绍使用TensorFlow来实现整个论文的实验过程,一方面熟悉使用TensorFlow API,另一...转载 2019-04-03 21:40:46 · 721 阅读 · 0 评论 -
AI Challenger 2018:细粒度用户评论情感分类冠军思路总结
https://challenger.ai/competition/fsauor20182018年8月-12月,由美团点评、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”历经三个多月的激烈角逐,冠军团队从来自全球81个国家、1000多所大学和公司的过万支参赛团队中脱颖而出。其中“后厂村静静”团队-由毕业于北京大学的程惠阁(现已入职美团点评)单人组队,勇夺“...转载 2019-03-26 13:57:45 · 1950 阅读 · 0 评论 -
CNN for Sentence Classification-textcnn阅读笔记
Textcnn 论文全名是《Convolutional Neural Networks for Sentence Classification》发表于2014年 是一个最经典的模型,Yoon Kim将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。论文地址:https://arxiv....转载 2019-03-22 16:09:17 · 944 阅读 · 0 评论 -
条件随机场、CBOW、word2vect、skip-gram、负采样、分层softmax(1)
用gensim学习word2vec摘要: 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。 1. gensim安装与概述 gensim是一word2vec原理(三) 基于Neg...转载 2019-03-18 21:55:24 · 489 阅读 · 0 评论 -
命名实体识别以及词性自动标注
数据挖掘的基本任务基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。就是通过选择'多个特征',进行数据分析,得出结果。 简单介绍一下什么是命名实体识别及其在实现过程中将会遇到的问题。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的...转载 2019-03-17 17:20:34 · 2043 阅读 · 0 评论 -
自然语言处理中/英文对比
人工智能时代,让计算机自动化进行文字语义理解非常重要,广泛应用于社会的方方面面,而语言本身的复杂性又给计算机技术带来了很大的挑战,攻克文本语义对实现AI全面应用有至关重要的意义。相应的自然语言处理(Natural Language Processing,NLP)技术因而被称为是“人工智能皇冠上的明珠”。中国和美国作为AI应用的两个世界大国,在各自语言的自动化处理方面有一些独特之处。接下来笔者对...转载 2019-03-19 21:55:24 · 6215 阅读 · 0 评论 -
2019全国知识图谱与语义计算大会
http://www.ccks2019.cn/?page_id=62组队微信:ljt1761原创 2019-03-19 21:22:27 · 2734 阅读 · 0 评论 -
NLP各种词库
https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆...转载 2019-03-14 11:18:46 · 10407 阅读 · 1 评论 -
NeurIPS | 2018
https://nips.cc/Conferences/2018/Schedule?type=PosterToggle Poster VisibilityPosterTue Dec 4th 10:45 AM -- 12:45 PM @ Room 210 #1Modelling sparsity, heterogeneity, reciprocity and communit...原创 2019-04-07 00:39:39 · 11926 阅读 · 0 评论 -
Spelling, Edit Distance, and Noisy Channels 拼写、编辑距离和噪声通道
原文这一篇介绍拼写的检查和更正,主要研究打字者键入的文本,同时这样的算法也可以应用于 OCR 和手写体识别。这篇博客要解决的三个问题:Detecting isolated non-words(非词错误检查) 如 giraffe 拼写成 graffe Fixing isolated non-words(孤立词错误改正) 把 graffe 更正为 giraffe,但只在孤立的环境中寻...转载 2019-04-13 22:34:22 · 458 阅读 · 0 评论 -
Words, morphology, and lexicons 词、词法和词汇
Morphology(形态学)关键概念:words are not atoms单词不是原子,它是由 morphemes(语素) 构成的。如 misunderstandings,我们可以将其分解为 mis-understand-ing-s。morphemes(语素)语素的种类:Roots(词根) 一个单词最核心的语素,代表着这个单词最主要的含义。或者把它称为 stem(词干)?...转载 2019-04-13 22:31:04 · 3910 阅读 · 0 评论 -
EMNLP 2017 北京论文报告会笔记
16 号在北京举办的,邀请了国内部分被录用论文的作者来报告研究成果,整场报告会分为文本摘要及情感分析、机器翻译、信息抽取及自动问答、文本分析及表示学习四个部分。感觉上次的CCF-GAIR 参会笔记写的像流水账,这次换一种方式做笔记。分为四个部分,并没有包含分享的所有论文。第一部分写我最喜欢的论文,第二部分总结一些以模型融合为主要方法的论文,第三部分总结一些对模型组件进行微调的论文,第四部分...转载 2019-04-13 22:25:37 · 700 阅读 · 0 评论 -
python-jieba-分词----官方文档截取
jieba“结巴”中文分词:做最好的 Python 中文分词组件特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 安装说明代码对 Pyt...转载 2019-04-13 22:18:57 · 304 阅读 · 0 评论 -
FP Growth算法
Apriori: Apriori是关联分析中比较早的一种方法,主要用来挖掘那些频繁项集合。其思想是: 1. 如果一个项目集合不是频繁集合,那么任何包含它的项目集合也一定不是频繁集合; 2. 如果一个项目集合是频繁集合,那么它的任何非空子集也是频繁集合; Aprioir需要扫描项目表多遍,从一个项目开始扫描,舍去掉那些不是频繁的项目,得到的集合称为L,然后对L中的每个元素进行...原创 2019-04-13 22:15:45 · 337 阅读 · 0 评论