2020年10月_大雄没有叮当猫

12月 11月 10月 09月 08月

原创 NLP13：CBOW模型的keras和pytorch实现

公众号：数据挖掘与机器学习笔记1.数据准备import osimport jiebaimport randomimport numpy as npfrom collections import Counterfrom torch.utils.data import Dataset, DataLoaderfrom sklearn.model_selection import train_test_split# 参数设置word_size = 64 # 词向量维度window = 5

2020-10-28 20:43:19 1484 3

原创 NLP12：预训练模型之ELMO

公众号：数据挖掘与机器学习笔记1.简介ELMO是一种深层的上下文单词表示模型，它可以同时建模：(1) 单词使用的复杂特征（例如语法和语义），也就是能够学习到词汇用法的复杂性(2)这些用法如何在语言上下文之间变化（即建模多义性）词向量是深度双向语言模型(deep bidirectional language model,BILM)内部状态的可学习函数，这些双向语言模型在大型文本语料库上进行了预训练。可以将这些预训练的词向量添加到现有模型中，能够显著改善NLP问题(问答、文本蕴含、情感分析等)的解决效

2020-10-25 22:14:40 1419 1

原创 NLP11：中文分词综述

1.中文分词的发展历程对380篇英文文献进行分析，大多是会议论文，来源包括ACL、EMNLP、COLING、IJCNLP等，收录最多的是ACL。SIGHAN是国际计算语言学协会中文处理特别兴趣组。SIGHAN采用多家机构的评测数据组织多次评测(即BakeOff)，评测使用封闭测试和开放测试两种方法。封闭测试只允许使用固定训练语料学习相应的模型，而开放测试可以使用任意资源。测试使用的评价标准包括准确率、召回率和F值。其中对比的是人工标注的数据集。CIPS-SIGHAN为中文处理资源与评测国际会议。以SIG

2020-10-22 22:55:57 882 1

原创 Spark04：Spark基本概念和消息通信架构

公众号：数据挖掘与机器学习笔记1.Spark基本概念Application(应用程序)：是指用户编写的Spark应用程序，包含驱动程序(Driver)和分布在集群中多个节点上运行的Executor代码，在执行过程中由一个或多个作业组成。Driver(驱动程序)：Spark中的Driver即运行上述Application的main函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责与Cl

2020-10-21 22:04:24 244

原创知识图谱06：知识图谱的表示思维导图

公众号：数据挖掘与机器学习笔记

2020-10-21 21:49:48 1398

原创知识图谱05：知识图谱构建涉及的技术

公众号：数据挖掘与机器学习笔记![image-20201019223023599](https://img-blog.csdnimg.cn/img_convert/ec6cf9257fdea2b2beb277093b514c4a.png)# 1.信息抽取信息抽取是知识图谱构建的第一步，其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。知识抽取是一种自动化地从结构化、半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括：实体抽取、关系抽取和属性抽取。1.

2020-10-19 22:31:45 4351

原创论文阅读03：深度文本匹配综述

公众号：数据挖掘与机器学习笔记1.文本匹配概要文本匹配在信息检索、自动问答、机器翻译、对话系统、复述问题等自然语言处理任务上应用广泛。．这些自然语言处理的任务都可以在一定程度上抽象成文本匹配问题，比如信息检索可以归结为查询项和文档的匹配，自动回答可以归结为问题和候选答案的匹配，机器翻译可以归结为两种语言间的匹配，对话系统可以归结为前一句对话和回复的匹配，复述问题则可以归结为两个同义词句的匹配。文本匹配面临的挑战主要来源于以下几个方面：词语匹配的多元性不同的词语可以表示同一个语义，比如同义词；相同

2020-10-11 17:35:19 1292

原创知识图谱04：知识图谱的存储与检索

公众号：数据挖掘与机器学习笔记Web本体语言OWL是当前存储本体的主要形式.OWL也适用于知识图谱的存储, 但OWL文档不适用于大数据量的情况, 影响查询、修改和推理速度. 作为知识库的知识图谱, 其基本元素是海量的各种关系联系在一起的实体, 需要创新性的存储方式. 知识图谱可采用关系型数据库或图数据库存储, 也可采用混合的方式存储。1.关系型数据库将知识图谱存入关系型数据库, 是一个将知识图谱转换为RDF三元组进行存储的问题, 即, 将知识图谱的关系分解为一个个<Subject, Predic

2020-10-08 09:46:58 2848 2

原创知识图谱03：知识图谱的构建方法

公众号：数据挖掘与机器学习笔记1.构建方法知识图谱的构建方法有三种: 自底向上、自顶向下和二者混合的方法.1.1 自底向上法自底向上的构建方法, 从开放链接的数据源中提取实体、属性和关系, 加入到知识图谱的数据层；然后将这些知识要素进行归纳组织, 逐步往上抽象为概念, 最后形成模式层. 自底向上法的流程如图1所示.知识抽取知识抽取, 类似于本体学习, 采用机器学习技术自动或半自动地从一些开放的多源数据中提取知识图谱的实体、关系、属性等要素. 知识抽取包含实体抽取、关系抽取和属性抽取. 实体

2020-10-07 21:42:47 19643 1

原创知识图谱02：知识图谱的应用

公众号：数据挖掘与机器学习笔记知识图谱提供了一种更好的组织、管理和理解互联网信息的能力, 可用于语义搜索、智能问答、个性化推荐等, 在社交和电子商务等领域中实现价值. 基于知识图谱的应用是信息领域当前的研究热点, 也是促进人工智能发展的基础技术之一.1.语义搜索知识图谱是语义搜索的大脑[55]. 传统搜索引擎基于用户输入的关键词检索后台数据库中的Web网页,将包含搜索关键词的网页的链接反馈给用户. 语义搜索(也称为语义检索)则首先将用户输入的关键词映射至知识图谱中的一个或一组实体或概念, 然后根据知识

2020-10-06 19:31:51 1673

原创知识图谱01：知识图谱的定义

公众号：数据挖掘与机器学习笔记知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间的关系的知识库。2012年，谷歌提出了知识图谱的概念，自此，知识图谱得到了广泛的关注和应用研究，现已发展成为语义搜索、智能问答、决策支持等智能服务的基础技术一。知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系的知识库. 知识图谱的研究起源于语义Web. 在2000年的XML大会上, Tim Berners Lee提出了语义Web的理念, 目标是为Web网页添加语

2020-10-05 21:54:27 5323

原创 NLP10：基于SiameseNetwork的文本相似度计算

公众号：数据挖掘与机器学习笔记一、文本相似度简介在上一篇文章中，简要介绍了孪生网络(siamese network)的基本原理及应用实战，这里再使用孪生网络来进行文本相似度计算。文本的相似性计算是“文本匹配”的一种特殊情况。一般来说，文本相似度计算任务的输入，是两篇文档，比如下表的前两个句子；输出是两篇文档的相似程度，通常用[0,1]区间内的小数来表示。文本相似度计算在许多NLP任务中都有用到，比如问答系统，通常用户给定一个问题，需要去答案库中匹配一个答案。此时，可以直接匹配到一个答案，也可以先匹

2020-10-04 20:35:22 2597 6

weka中文教程

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine ）的，基于JAVA环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。这是关于weka的使用教程，有需要的可以下载

2017-09-23

hadoop大数据平台应用案例详细分析

大数据案例开发

2017-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人