自然语言处理
文章平均质量分 76
To_be_brave1
这个作者很懒,什么都没留下…
展开
-
Gensim入门教程
https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlWhat is Gensim?Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的...转载 2018-06-04 12:07:51 · 818 阅读 · 0 评论 -
中文分词
作者:竹间智能 Emotibot链接:https://www.zhihu.com/question/19578687/answer/190569700来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行...转载 2018-07-30 10:51:01 · 528 阅读 · 0 评论 -
命名实体识别的难点与现状
https://baijiahao.baidu.com/s?id=1566811969925699&wfr=spider&for=pc 命名实体识别(Named Entities Recognition, NER)是自然语言处理(Natural Language Processing, NLP)的一个基础任务,其目的是识别语料中人名、地名、组织机构名等命名实体,在所...转载 2018-07-30 10:58:21 · 26682 阅读 · 1 评论 -
基于大规模语料的新词发现算法
原文地址 文 / 顾森 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义...转载 2018-07-27 16:16:15 · 4770 阅读 · 4 评论 -
新词发现算法
https://spaces.ac.cn/archives/4256如果依次阅读该系列文章的读者,就会发现这个系列共提供了两种从0到1的无监督分词方案,第一种就是《【中文分词系列】 2. 基于切分的新词发现》,利用相邻字凝固度(互信息)来做构建词库(有了词库,就可以用词典法分词);另外一种是《【中文分词系列】 5. 基于语言模型的无监督分词》,后者基本上可以说是提供了一种完整的独立于其它文献的...转载 2018-07-27 16:20:59 · 2534 阅读 · 0 评论 -
神经网络结构在命名实体识别(NER)中的应用
近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命名实体识别(Named Entity Recognition,NER)也不例外,神经网络结构在NER中也取得了不错的效果。最近,我也阅读学习了一系列使用神经网络结构进行NER的相关论文,在此进行一下总结,和大家一起分享学习。1 引言 命名实体识别(Named Entity...转载 2018-08-17 15:05:55 · 1298 阅读 · 0 评论 -
序列标注-命名实体识别
三个月之前 NLP 课程结课,我们做的是命名实体识别的实验。在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。 ...转载 2018-08-17 15:08:58 · 10525 阅读 · 4 评论 -
转载——数据挖掘&机器学习
一、数据挖掘&机器学习 什么是社区发现?Factorization Machines 学习笔记(四)学习算法Factorization Machines 学习笔记(三)回归和分类Factorization Machines 学习笔记(二)模型方程Factorization Machines 学习笔记(一)预测任务发表在 Science 上的一种新聚类算法一种并行随...转载 2018-08-23 13:50:22 · 146 阅读 · 0 评论 -
主题模型LDA
一、LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?” ...原创 2018-09-04 12:59:01 · 222 阅读 · 0 评论 -
word2vec、glove和 fasttext 的比较
Word2vec 处理文本任务首先要将文字转换成计算机可处理的数学语言,比如向量,Word2vec就是用来将一个个的词变成词向量的工具。 word2vec包含两种结构,一种是skip-gram结构,一种是cbow结构,skip-gram结构是利用中间词预测邻近词,cbow模型是利用上下文词预测中间词 这两种模型有三层,输入层,映射层,输出层,隐藏层是线性结构,所以相对于语言模型训练较快。 ...转载 2018-09-17 12:00:08 · 3817 阅读 · 0 评论 -
Word2Vec、GloVe、Fasttext等背后的思想简介
超长文, 建议收藏之后慢慢观看~1Efficient Estimation of Word Representations in Vector Space本文是 word2vec 的第一篇, 提出了大名鼎鼎的 CBOW 和 Skip-gram 两大模型.由于成文较早, 本文使用的一些术语有一些不同于现在的叫法, 我都替换为了现在的叫法.CBOW 的架构如下所示. 与作者提到的 feedfo...转载 2018-09-17 12:01:38 · 2153 阅读 · 1 评论 -
word2vec and glove优缺点
传统方法 假设我们有一个足够大的语料库(其中包含各种各样的句子,比如维基百科词库就是很好的语料来源) 那么最笨(但很管用)的办法莫过于将语料库里的所有句子扫描一遍,挨个数出每个单词周围出现其它单词的次数,做成下面这样的表格就可以了。 假设矩阵是5W*5W维,矩阵运算量巨大。假设矩阵的每个数字都用标准32位Int表示,需要10,000,000,000个byte,也就是10G...转载 2018-09-17 12:04:07 · 15203 阅读 · 2 评论 -
深度学习之路
偶然在github上看到Awesome Deep Learning项目,故分享一下。其中涉及深度学习的免费在线书籍、课程、视频及讲义、论文、教程、网站、数据集、框架和其他资源,包罗万象,非常值得学习。其中研究人员部分篇幅所限本文未整理进来。另外上面的GIF录制于MIT自动驾驶课程(MIT 6.S094: Deep Learning for Self-Driving Cars)PS:gith...转载 2018-10-08 19:05:27 · 670 阅读 · 0 评论 -
聊天机器人chatbox
整理者:我爱机器学习本文将持续更新,烦请留言告知遗漏的高质量资源Awesome Chatbot链接:https://github.com/shaohua/awesome-chatbotDEEP LEARNING FOR CHATBOTS链接:DEEP LEARNING FOR CHATBOTS聊天机器人技术的研究进展链接:聊天机器人技术的研究进展使用深度学习...转载 2018-11-06 16:20:55 · 5594 阅读 · 0 评论 -
自然语言处理基础
https://www.cnblogs.com/pinard/category/894695.html转载 2019-03-09 14:24:57 · 365 阅读 · 0 评论 -
Spark LDA 主题预测
本文主要对使用Spark MLlib LDA进行主题预测时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA模型训练可以参考:Spark LDA 主题抽取开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求jdk7+。语料有大概70万篇博客,十亿+词汇量,词典大概有五万左右的词。模型准备利用spark mllib LDA进行主题预测需要训练好的...转载 2018-07-15 12:18:39 · 798 阅读 · 0 评论 -
Spark LDA 主题抽取
转https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求...转载 2018-07-15 12:17:56 · 540 阅读 · 0 评论 -
用户画像
最近在工作之余,结合自己的理解和论坛上的一些帖子,整理了份用户画像的文章,个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,权当分享,侵删) 一、 什么是用户画像 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打...转载 2018-07-25 12:20:27 · 408 阅读 · 0 评论 -
LDA 以及 Gensim 实现
http://www.shuang0420.com/2016/05/18/Gensim-and-LDA-Training-and-Prediction/import warningswarnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')import sys,ossys.path.appe...原创 2018-06-05 18:23:34 · 3336 阅读 · 1 评论 -
主题模型TopicModel:主题模型LDA的应用
http://blog.csdn.net/pipisorry/article/details/45665779主题模型LDA的应用拿到这些topic后继续后面的这些应用怎么做呢:除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电脑”,10%关于其他主题。这些主题分布可以有多种用途:聚类: 主题是聚类中心,文章和多个类簇(主题)关联...转载 2018-06-21 10:56:31 · 5493 阅读 · 0 评论 -
自己动手写word2vec (一):主要概念和流程
转https://blog.csdn.net/u014595019/article/details/51884529word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》(个人觉得这是很好的资料,各方面知识很全面,不像网上大部分有残缺),...转载 2018-06-15 17:56:25 · 2080 阅读 · 0 评论 -
Spark LDA
https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求j...转载 2018-07-10 10:43:01 · 308 阅读 · 0 评论 -
命名实体识别(NER)
命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。如下图:X我们可以看做成一句话的每个单...转载 2018-07-05 11:47:32 · 6921 阅读 · 0 评论 -
知识图谱与语义技术概览
转 http://pelhans.com/2018/03/15/xiaoxiangkg-note1/知识图谱与语义技术概览。主要介绍知识表示、知识抽取、知识存储、知识融合、知识推理、知识众包、语义搜索、知识问答等内容。同时还包含一些典型的应用案例。若理解有偏差还请指正。知识图谱与语义技术概览知识图谱的概念演化知识图谱的本质知识图谱技术概览知识表示RDFOWLSPARQLJSON-LD知识图谱的分布...转载 2018-07-05 11:54:38 · 5499 阅读 · 0 评论 -
知识表示
http://pelhans.com/2018/03/16/xiaoxiangkg-note2/本讲首先对早期的知识表示做了一个简单介绍,而后详细介绍了基于语义网的知识表示框架,如RDF和RDFS和查询语言SQARQL。最终给出几个典型的知识项目的知识表示。知识表示历史知识的概念早期的知识表示方法一阶谓词逻辑产生式系统框架表示法语义网络基于语义网的知识表示框架RDF简介RDF概念RDF和RDFSO...转载 2018-07-05 11:58:47 · 9779 阅读 · 0 评论 -
知识抽取方法
http://pelhans.com/2018/03/16/xiaoxiangkg-note2/本节介绍了针对结构化数据、非结构化数据、半结构化数据的知识抽取方法。知识抽取的概念知识抽取的子任务面向非结构化数据的知识抽取实体抽取实体识别与链接关系抽取基于模板的方法基于触发词的Pattern基于依存分析的Pattern监督学习Pipeline训练联合模型半监督学习方法远程监督事件抽取事件抽取的pip...转载 2018-07-05 12:00:02 · 8937 阅读 · 0 评论 -
知识挖掘
本节介绍了知识挖掘的相关技术,包含实体链接与消歧,知识规则挖掘,知识图谱表示学习。知识挖掘实体消歧与链接示例一: 基于生成模型的 entity-mention 模型示例二: 构建实体关联图顶点的初始化边的初始化 : 深度语义关系模型基于图的标签传播算法示例三:基于知识库基于向量相似度的实体关联图的构建基于PageRank得分知识图谱表示学习(TranSE)PRA 与 TranSE的结合Ref知识挖...转载 2018-07-05 12:01:21 · 685 阅读 · 0 评论 -
word2vec词向量训练及gensim的使用
转https://blog.csdn.net/zl_best/article/details/53433072一、什么是词向量词向量最初是用one-hot represention表征的,也就是向量中每一个元素都关联着词库中的一个单词,指定词的向量表示为:其在向量中对应的元素设置为1,其他的元素设置为0。采用这种表示无法对词向量做比较,后来就出现了分布式表征。在word2vec中就是采用分布式表征...转载 2018-07-05 12:05:31 · 5798 阅读 · 0 评论 -
知识推理
本节对本体任务推理做一个简单的介绍,并介绍本体推理任务的分类。而后对本体推理的方法和工具做一个介绍。知识推理简介知识推理任务分类知识推理简介描述逻辑本体推理方法与工具介绍基于Tableaux运算相关工具简介基于逻辑编程改写的方法相关工具简介基于一阶查询重写的方法查询重写举例Ontop 工具基于产生式规则的方法模式匹配 RETE 算法相关工具介绍DroolsJenaRDF4J相关工具总结Ref知识推...转载 2018-07-05 12:12:22 · 3211 阅读 · 0 评论 -
语义搜索
http://pelhans.com/2018/04/28/xiaoxiangkg-note9/本节对语义搜索做一个简单的介绍,而后介绍语义数据搜索、混合搜索。该部分理解不深,后续会进一步补充。语义搜索简介语义数据搜索存储和索引(Semplore,Dataplore的前身)排序和索引基于结构的分区和查询多数据源搜索–以Hermes 为例混合语义搜索Ref语义搜索简介什么是语义搜索,借用万维网之父T...转载 2018-07-05 12:13:42 · 5234 阅读 · 0 评论 -
知识问答
本节对知识问答的概念做一个概述并介绍KBQA实现过程中存在的挑战,而后对知识问答主流方法做一个介绍。知识问答简介 知识问答简单流程与分类 KBQA的基本概念和挑战 问答系统的基本组件 技术挑战 知识问答主流方法介绍 基于模板的方法 模板定义 模板生成 模板匹配与实例化 排序打分 TBSL的主要缺点 基于语义解析的方法 ...转载 2018-09-04 12:59:34 · 3416 阅读 · 0 评论 -
Spark2.0机器学习系列之9: 聚类算法(LDA)
https://blog.csdn.net/qq_34531825/article/details/52608003在写这篇文章之前,先说一些题外话。 许多机器学习算法(如后面将要提到的LDA)涉及的数学知识太多,前前后后一大堆,理解起来不是那么容易。 面对复杂的机器学习模型,尤其是涉及大量数学知识的模型,我们往往要花费大量的时间和精力去推导数学算法(公式),如果过分沉湎于...转载 2018-07-06 10:16:44 · 763 阅读 · 0 评论 -
数据挖掘十大算法
本文主要分析皆来自其他资料,借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述(根据自身经验有一定修改),另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看了这么多书籍或者资料中唯一一本坚持从头看到尾,看完了的书籍,包括其中的代码皆实践运行过,收获颇多,个人认为虽然这本书时间上已经算是老资料了,但其中作者的各种总结和代码的演练都由浅入深(前提还是要有一点...转载 2019-03-09 14:31:47 · 410 阅读 · 0 评论