NLP︱相关技术跟踪
文章平均质量分 94
悟乙己
心如花木,皆向阳而生!
展开
-
Transformer、BERT等模型学习笔记
记录一下刷B站教学视频的一些笔记,目前主刷:李沐老师的【跟李沐学AI】公众号-【NLP从入门到放弃】 的视频文章目录1 Transformer从零详细解读(可能是你见过最通俗易懂的讲解)1.1 整体结构1.2 encoder部分1.2.1 输入部分1.2.2 多头注意力机制1.2.2.1 注意力机制原理1.2.2.2 QKV的获取方式1.2.3 残差1.2.3 layer norm 与BN的差异1.2.4 前馈神经网络1.3 Decoder1.3.1 masked1.3.2 新增的多头注意力机制原创 2022-03-20 23:38:13 · 2023 阅读 · 0 评论 -
百度AI -智能地址识别 接口使用
百度最近推出了地址识别,不过python SDK没有更新,只能用请求的方式。不过,从效果来看,不能返回具体的经纬度,对后续的分析只是文本拆散 + 归类,解析省市区;可能还不如直接用地图API的地理编码,来的更直接代码地址:https://github.com/mattzheng/Baidu-AIP-Address其中,自己需要在百度后台拿到。APP_ID = 'xxxxxx'API_KEY = 'xxxxxx'SECRET_KEY = ''使用:ad = address_detect.原创 2020-10-09 11:56:25 · 3237 阅读 · 5 评论 -
AI智能内容创作的几个方面
昨天刚好看到CSDN有要开通付费专栏(定价有点不合理啊),我就在想有啥好写。。刚好最近的研究方向就是KG +智能写作,而且大大小小的智能内容创作产品、技术也一直在关注,于是就想做个小小搬运匠,看看能不能把相关的内容整理、搬运一下。智能写作可能比较偏重文字创作,内容创作可能就更加宽泛了一些,不仅仅是文字,还有:图片、大热的视频、音乐等载体。现在对于内容创作的需求也是越来越大,很多个...原创 2019-12-19 08:42:00 · 2305 阅读 · 0 评论 -
微信对话开放平台智能对话模块的几个亮点
微信AI首席科学家牛成公布了最新开放方案,并重磅宣布全面开放各层次 NLP 能力。具体说来,微信 AI 迈出了“三大步”:以硬件合作为核心的智言小微硬件开放平台 2.0 正式亮相; 公开以对话开放能力为核心的微信对话开放平台; 全面开放以自然语言处理能力为核心的 NLP 基础技术平台。参考:微信9年:张小龙指明方向,微信AI全面开放NLP能力今天公开课上隆重介绍了...原创 2020-01-10 08:30:00 · 10914 阅读 · 0 评论 -
电商智能写作:阿里妈妈创意中心智能文案引擎
本篇为电商智能写作第一篇,笔者跟踪电商智能写作领域有些日子了,目前已知有成型电商智能写作产品的有:阿里的阿里妈妈(还有其他的几篇该领域的论文,不知道有木有做成产品使用起来),京东AI闪电,宝尊电商等。其中,又以阿里妈妈创意中心这个产品 + 技术 + 论文 + 代码 + 专利都齐全的,所以开篇来说。阿里妈妈一键生成电商营销文案这个是阿里妈妈创意中心,智能文案的试用界面,可以看到用户可以输入...原创 2019-12-29 22:44:29 · 9937 阅读 · 1 评论 -
智能视频生成:阿里系的诸多成果
阿里因为特有的大平台流量,在各种智能内容生成上都涉足较多,而且公之于众的成果颇多。9月26日,阿里巴巴在杭州云栖大会上首次公布了人工智能调用规模:AI每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。阿里还首次披露人工智能的完整布局,在AI芯片、AI云服务、AI算法、AI平台、产业AI的进展。阿里首...原创 2019-12-22 11:43:56 · 2273 阅读 · 0 评论 -
【介绍】GNES ——"Pythonic"的直观方式快速构建神经搜索框架
来自腾讯AI Lab肖涵(肖涵博士,腾讯AI Lab GNES项目组负责人)大神的开源项目,非常赞:GNES Flow。GNES Flow让你通过“Pythonic”的直观方式快速构建神经搜索框架,将GNES架构中的各个微服务搭积木一样组织起来。它支持可视化,多进程/线程/DockerSwarm/K8s后台。GNESFlow和GNES的关系就如同Keras和Tensorflow一样,它为不熟...原创 2019-10-24 11:53:13 · 1249 阅读 · 0 评论 -
中文文本纠错算法走到多远了?
纠错是从互联网起始时就在一直解决的问题,但是一直作为一些重要技术的辅助、附属功能而默默无闻,譬如搜索引擎、譬如火热的智能写作等。中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如 爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xingfu-幸福中文拼音缩写,...转载 2019-02-01 11:30:41 · 29188 阅读 · 9 评论 -
cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)
在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一章中总结的类似,当然由于入门较晚没有CIPS2016里面说法权威,于是把CIPS2016中的内容,做一个摘录。CIPS2016 中文信息处理报告《第五章 语言表示与深度学习研究进展、现状及趋势》第三节 技术方法和研原创 2017-02-05 19:06:55 · 14741 阅读 · 7 评论 -
依存可视化︱Dependency Viewer——南京大学自然语言处理研究组
来源网页:http://nlp.nju.edu.cn/tanggc/tools/DependencyViewer.html视频演示网页:http://nlp.nju.edu.cn/tanggc/tools/DependencyViewer_demo.html可视化效果效果如下: .1、数据格式如下:1 赵宁 赵宁 NR NR _ 4 d-genetive _ _2转载 2017-07-08 16:33:37 · 5723 阅读 · 0 评论 -
主题模型︱几款新主题模型——SentenceLDA、CopulaLDA、TWE简析与实现
百度最近开源了一个新的关于主题模型的项目。文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 .一、Familia简介帮Familia,打个小广告~ Familia的github 主题模型在工业界的应用范式可以抽象原创 2017-07-15 20:51:57 · 18032 阅读 · 2 评论 -
NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法)
摘录自:CIPS2016 中文信息处理报告《第一章 词法和句法分析研究进展、现状及趋势》P8 -P11 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf .NLP词法、句法、语义、语篇综合系列: NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较 NLP+词法系列(二)︱中文分词原创 2017-02-18 22:26:15 · 25789 阅读 · 0 评论 -
NLP+语篇分析(五)︱中文语篇分析研究现状(CIPS2016)
摘录自:CIPS2016 中文信息处理报告《第三章 语篇分析研究进展、现状及趋势》P21 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf语篇分析又称话语分析或篇章分析,是对“ 语篇” 整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。 语篇是由一个以上的句子(原创 2017-02-18 23:02:33 · 8437 阅读 · 2 评论 -
NLP+语义分析(四)︱中文语义分析研究现状(CIPS2016、角色标注、篇章分析)
摘录自:CIPS2016 中文信息处理报告《第二章 语义分析研究进展、 现状及趋势》P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同, 语义分析又可进一步分解为词汇级...原创 2017-02-18 22:51:17 · 37635 阅读 · 0 评论 -
NLP+词法系列(二)︱中文分词技术简述、深度学习分词实践(CIPS2016、超多案例)
摘录自:CIPS2016 中文信息处理报告《第一章 词法和句法分析研究进展、现状及趋势》P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf之前写过一篇中文分词总结,那么在那篇基础上,通过在CIPS2016的摘录进行一些拓展。可参考上篇:NLP+词法系列(一)︱中文分词技术小结、几大分...原创 2017-02-18 22:12:52 · 24192 阅读 · 2 评论 -
PaddlePaddle︱开发文档中学习情感分类(CNN、LSTM、双向LSTM)、语义角色标注
PaddlePaddle出教程啦,教程一部分写的很详细,值得学习。 一期涉及新手入门、识别数字、图像分类、词向量、情感分析、语义角色标注、机器翻译、个性化推荐。 二期会有更多的图像内容。 随便,帮国产框架打广告:加入TechWriter队伍,强大国产深度学习利器。https://github.com/PaddlePaddle/Paddle/issues/787 . .一、情感分类模型介绍C转载 2017-02-04 17:59:10 · 18869 阅读 · 3 评论 -
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒!但是商业应用的过程中存在的以下的问题:1、是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词、歧义词的识别?2、或原创 2016-11-25 14:02:06 · 48390 阅读 · 2 评论 -
NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)
有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的学习。 部分学习内容来源于小象学院,由寒小阳老师授课《深度学习二期课程》高级词向量三部曲:1、NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)原创 2017-02-03 15:32:08 · 39941 阅读 · 6 评论 -
NLP︱高级词向量表达(二)——FastText(简述、学习笔记)
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classif...原创 2017-02-03 23:20:56 · 93288 阅读 · 12 评论 -
NLP︱高级词向量表达(三)——WordRank(简述)
如果说FastText的词向量在表达句子时候很在行的话,GloVe在多义词方面表现出色,那么wordRank在相似词寻找方面表现地不错。 其是通过Robust Ranking来进行词向量定义。 相关paper:WordRank: Learning Word Embeddings via Robust Ranking 相关博客:https://rare-technologi原创 2017-02-04 00:10:22 · 14125 阅读 · 1 评论 -
NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题。 笔者认为还存在的问题有:1、如何在R语言环境下,大规模语料提高运行效率?2、如何提高词向量的精度,或者说如何衡量词向量优劣程度?3、词向量的功能性作用还有哪些值得开发?4、关于语义中的歧义问题如何消除?5、词向量从”词...原创 2016-08-17 12:12:52 · 19284 阅读 · 1 评论 -
知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构。一、知识图谱商业应用01 唯品金融大数据使用的是OrientDB,Orientdb提供了大量的接口, 其中最常用的就是Gremlin和sql。Gremlin是Apache TinkerPop 框架下的图遍历语言。Gremlin是一种函数式数据流语言,可以使得用户使用简洁的方式表述复杂...原创 2017-03-26 12:09:32 · 37190 阅读 · 0 评论 -
NLP+2vec︱认识多种多样的2vec向量化模型
来自于github一位博主的整理,好多都没有看到过+还有我一直期待去研究的。 github:https://github.com/MaxwellRebo/awesome-2vec1、word2vec耳熟能详的NLP向量化模型。 Paper: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-原创 2017-04-08 12:40:58 · 10513 阅读 · 0 评论