NLP
文章平均质量分 89
涵星同学
Just write down in here.
展开
-
推荐系统(业务侧)小结
本文分别从一个业务人员、一个技术人员、一个普通用户的角度来聊聊推荐系统/场景,本文分为三部分来阐述一、业务人员如果看待推荐场景?如果更好地使用推荐来反哺业务?二、推荐系统的基本框架是什么?技术人员在构建推荐系统的过程中,常用的推荐算法有哪些?...原创 2022-07-29 10:30:25 · 364 阅读 · 0 评论 -
情感分析方法之基于深度学习(四)
人间四月芳菲尽,方飞尽@_@为了更完整地认识情感分析方法,接上篇“情感分析系列”,本篇主要分两个部分:一、斯坦福大学自然语言处理第七课“情感分析”点击打开链接二、最新情感分析相关论文:深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合点击打开链接------------------------------------------------------------------...原创 2018-04-25 13:10:38 · 9783 阅读 · 1 评论 -
关系抽取(分类)总结【转载】
366 次阅读关系抽取(分类)总结文章目录基本介绍Fully Supervised Learning相关文献总结1Distant Supervised Learning相关文献总结2附2018.04.04更新:z增加对NYT+Freebase数据集的两个版本的说明对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结。基本介绍基本定义关系抽取: ...转载 2018-05-10 14:00:38 · 34731 阅读 · 6 评论 -
知识图谱入门
本文转自刘知远新浪博客2.1 什么是知识图谱在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起,搜索引擎就是这样的模式。直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。如图2.1所示,当用户输入“Marie Curi...转载 2018-06-27 17:34:50 · 3658 阅读 · 1 评论 -
知识图谱入门2
对知识图谱的知识体系做一下简单的概括,很粗略,就当大纲用好了。补充知识图谱的概述性文章:知识图谱研究进展 知识图谱中的关系推理 其他博客 语义网络,语义网,链接数据和知识图谱...原创 2018-08-03 20:37:07 · 662 阅读 · 0 评论 -
知识图谱之知识表示
先上两个狠全面的综述或者叫总结:《知识表示学习研究进展》 基于翻译模型(Trans系列)的知识表示学习然后是清华大学开源OpenKE:知识表示学习平台“表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。”知识表示的几个代表模型:距离模型、单层神经网络...原创 2018-08-05 19:54:14 · 12142 阅读 · 0 评论 -
分类前之数据预处理
之前在情感分析方法之nltk情感分析器和SVM分类器(二)一文中的第二部分,仅仅记录了最后一步分类器的处理,现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...原创 2018-08-05 20:13:09 · 2191 阅读 · 1 评论 -
TensorFlow学习(三):CNN-Relation-Extraction
cnn_relation_extraction部分记录import tensorflow as tfimport numpy as npimport osimport datetimeimport timefrom cnn_relation_extraction_master.text_cnn import TextCNNfrom cnn_relation_extraction_...原创 2018-11-18 18:07:59 · 842 阅读 · 0 评论 -
Neo4j(二):节点和关系文件导入
首先,在Neo4j中打开Database所在的目录文件夹,在目录下的import文件夹下存放需要载入的csv文件(因为Neo4j默认是从打开地址目录下的import中读出,所以需要在此目录下创建csv文件,否则在Neo4j中执行载入命令会出现找不到文件的情况。)csv节点文件的载入下面是结点文件中的内容,主要字段包括id,name,position在Neo4j的命令行输入并执行以下...原创 2018-11-26 19:47:03 · 9135 阅读 · 3 评论 -
使用NLTK+StanfordNLP进行文本特征提取
文章为自己的实践记录及总结,多有疏忽,恐有错误......文本特征提取是基于特征向量的自然语言处理方法的基本技术,常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中,词汇特征包括词性、上下文词汇、命名实体等;位置特征如命名实体之间的间隔距离;句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLP和LTP(哈工大社会计算与信息检索研究中心研...原创 2019-01-10 22:42:52 · 2515 阅读 · 0 评论 -
人物关系抽取——基于特征工程
本文代码,不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...原创 2019-07-15 10:41:36 · 743 阅读 · 0 评论 -
关系抽取小论文小结
传统的关系抽取主要为pipeline model.深度学习方法在pipeline model 基础上,joint models 成为可能。原创 2018-04-02 15:42:21 · 1520 阅读 · 0 评论 -
中英文维基百科语料上的Word2Vec实验
这篇作为完整的词向量模型训练过程记录~~~一、数据获取wiki中文:wiki中文wiki英文:wiki英文中文文件大小约1.3G,英文文件大小约13.8G。二、将xml文件转换为text格式,使用gensim.corpora中的WikiCorpus函数来处理维基百科的数据,具体方法是get_texts().#!/usr/bin/env python# -*- coding: utf-8 -*-...原创 2018-03-21 17:50:46 · 3878 阅读 · 4 评论 -
Python 3 中文文档编码问题
在做中文文本情感分类预处理时,编码问题着实浪费我不少时间,总结如下:1. 文件是中文,内容是酒店评论,首先是打开文件和写入新文件。因为pickle存储默认为是二进制形式,在Python中为bytes类型,打开和写入方式需用二进制方式:# 读取文件内容def getContent(filename): with open(filename, 'rb') as f: # 打开该中文文...原创 2018-03-16 18:58:04 · 282 阅读 · 0 评论 -
关键词抽取——结巴分词
结巴分词5--关键词抽取作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分...转载 2018-03-05 15:06:31 · 1451 阅读 · 0 评论 -
Word2Vec原理与实现
Word2Vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在Word2Vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层[1]。Word2Vec依赖skip-grams或连续词袋(CBOW)来建...原创 2018-03-05 16:36:59 · 1360 阅读 · 0 评论 -
文本向量化
原创 2018-03-05 17:20:57 · 623 阅读 · 0 评论 -
情感分析语料
因为项目要求,主要先收集英文的语料库来进行模型的训练。一、英文1.(可下载) 康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应...转载 2018-03-22 17:36:27 · 3483 阅读 · 1 评论 -
情感分析方法之snownlp和贝叶斯分类器(三)
《情感分析方法之nltk情感分析器和SVM分类器(二)》主要使用nltk处理英文语料,使用SVM分类器处理中文语料。实际的新闻评论中既包含英文,又包含中文和阿拉伯文。本次主要使用snownlp处理中文语料。一、snownlp使用from snownlp import SnowNLPview = ["谁把战争带给你们,你们就要把战争带到他们家", "这么牛叉?强", ...原创 2018-03-23 16:58:28 · 3059 阅读 · 1 评论 -
利用Python将文本中的中英文分离
在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。下面对中英文文本进行分离做一下总结:1、超短文本,ASCII识别。s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's pr...原创 2018-03-29 18:31:28 · 14093 阅读 · 0 评论 -
补充关键词抽取:RAKE,LDA等
之前的《关键词抽取——结巴分词》一文仅仅利用了jiaba中的tfidf 与 textrank 进行关键词抽取,最近对以英文为主的新闻评论进行关键词提取时,这两种方法各有各的差:tfidf因为算法的限制,提取到的关键词不是很让人满意;jieba里面的textrank输出的是只针对中文语料的结果,对纯英文输入返回空值,根据源码猜测原因,可能是在处理时加入分词,将英文过滤掉了?(有待考究)。因此重新对“...原创 2018-03-29 23:16:24 · 3577 阅读 · 1 评论 -
情感分析概述(一)
作者:国双商业市场链接:https://www.zhihu.com/question/31471793/answer/139282423来源:知乎著作权归作者所有,转载请联系作者获得授权。情感分析是学术领域研究多年的课题,用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法、语言文法的方法,此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。 各类paper...转载 2018-03-20 16:27:45 · 9689 阅读 · 0 评论 -
情感分析方法之nltk情感分析器和SVM分类器(二)
一、使用NLTK Vader SentimentAnalyser分析NLTK附带了一个内置的情感分析器模块——nltk.sentiment.vader,参考1,参考2。它可以分析一段文字或句子下情绪的正面、负面和中性极性分类。其中,compound表示复杂程度,neu表示中性,neg表示负面情绪,pos表示正面情绪。import nltkfrom nltk.sentiment.vader imp...原创 2018-03-20 16:29:11 · 24231 阅读 · 3 评论 -
用NLTK对英文语料做预处理,用gensim计算相似度
“这篇是研一自己摸索的代码,当时就有点过时,但还是具有一定的参考价值。仅作记录,意义不大。”——题记来自这里提示性信息很赞参考52nlp(三)(二)(一)对所有语料进行分词(tokenizing)和词干化(stemming)利用 tf-idf 将语料库转换为向量空间(vector space)计算每个文档间的余弦距离(cosine dis原创 2018-01-08 16:25:10 · 7501 阅读 · 0 评论