自然语言处理,NLTK
MeteorMan99
一万年太久,只争朝夕
与君共勉之!
展开
-
解决NLTK包下载出错问题及nltk测试
官方下载地址http://www.nltk.org/nltk_data/安装NLTK-Data你可以作死的尝试:>>>import nltk>>>nltk.download()先点击Refresh,刷新下,之后选中all-corpora点击左下角下载就好,至于路径 要么在C盘中,要么在Python的根目录下!C盘根目转载 2017-12-01 00:36:06 · 5834 阅读 · 2 评论 -
GitHub中README.md文件的编辑和使用
参考链接:https://blog.csdn.net/ljc_563812704/article/details/53464039原创 2018-08-29 20:24:31 · 1365 阅读 · 0 评论 -
论文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks实现之数据集制作
1.数据集本文采用的是STS数据集,如下图所示,包括所有的2012-2016年的数据,而all文件夹包含2012-2015的所有数据。每一个文件的具体数据如下所示,每一行为一个三元组:<相似性得分,句子1,句子2>.在实现时将all文件夹中的所有数据当作训练集,将2016年的文件当作测试集。1.1数据读取采用以下代码进行单个文件的数据读取:"""读取一...原创 2018-09-03 16:21:48 · 504 阅读 · 1 评论 -
使用matplotlib在同一个窗口绘制多个图形
代码如下:import numpy as npimport matplotlib.pyplot as plt#创建自变量数组x= np.linspace(0,2*np.pi,500)#创建函数值数组y1 = np.sin(x)y2 = np.cos(x)y3 = np.sin(x*x)#创建图形plt.figure(1)'''意思是在一个2行2列共4个子图的图中,定...原创 2018-09-09 14:30:51 · 16668 阅读 · 1 评论 -
论文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks实现之网络模型搭建及训练
环境:Python3.6Tensorflow-GPU 1.8.0本文所实现的网络模型是在https://blog.csdn.net/liuchonge/article/details/64440110的基础上搭建的,不同的是为了应对loss为NAN的情况,本文在每一层卷积的后面都添加了一层BN,且comU1只计算cosine距离和L1距离,comU2只计算cosine距离。基于此,...原创 2018-09-07 16:03:24 · 364 阅读 · 2 评论 -
如何查找NLP相关论文
如何检索自然语言处理领域相关论文前言针对自身的情况,发现个人查找论文的能力,看论文的能力有些薄弱。特此进行如果检索合适的论文写一个博客。 本文主要是摘自刘知远 老师的新浪博客和南京理工大学文本挖掘研究组博客综述要快速地熟悉一个领域,更加深刻地了解这该领域的发展,就必须查阅这个领域的相关论文。本文主要讲述自然语言处理领域(NLP)相关论文的检索。与其他领域一样,自然语言处理领域...转载 2018-10-15 18:36:59 · 4726 阅读 · 1 评论 -
使用Java调用Stanford CoreNLP 进行中文分词
Stanford CoreNLP 进行中文分词中文分词的工具有很多,使用斯坦福的CoreNLP进行分词的教程网上也不少,本篇博客是记录自己在使用Stanford CoreNLP进行中文分词的学习笔记。1. 工具准备1.1 下载NLP相关包:网址: https://stanfordnlp.github.io/CoreNLP/index.html 需要下载的包看下图: 1.2 准备j...原创 2018-11-21 13:03:14 · 9457 阅读 · 4 评论 -
使用Python调用Stanford CoreNLP进行分词
Stanford CoreNLP的源代码是使用Java写的,提供了Server方式进行交互。stanfordcorenlp是一个对Stanford CoreNLP进行了封装的Python工具包,GitHub地址https://github.com/Lynten/stanford-corenlp,使用非常方便。安装stanfordcorenlp包之前: 1:下载安装JDK 1.8及以上版本。 ...原创 2018-11-21 13:09:32 · 4249 阅读 · 6 评论 -
基于Seq2Seq的问答系统/聊天机器人
前几篇博客介绍了基于检索聊天机器人的实现、seq2seq的模型和代码,本篇博客将从头实现一个基于seq2seq的聊天机器人。这样,在强化学习和记忆模型出现之前的对话系统中的模型就差不多介绍完了。后续将着重介绍强化学习和记忆模型在对话系统中的应用。基于检索的聊天机器人的实现seq2seq模型详解tensorflow中的seq2seq的代码详解闲聊机器人在网上有很多有趣的小例子:c...原创 2018-12-03 14:03:41 · 6977 阅读 · 12 评论 -
Tensorflow:基于LSTM生成藏头诗
模型生成首先我们要训练好模型。这里采用的是2层的LSTM框架,每层有128个隐藏层节点,batch_size设为64。训练数据来源于全唐诗。特别注意到的一点是这里每训练完一次就对训练数据做shuffle。 源代码如下:#!/usr/bin/python3#-*- coding: UTF-8 -*-import collections import numpy as np im...原创 2018-12-06 16:23:29 · 1027 阅读 · 1 评论 -
NLP领域国内外知名会议和期刊
本文介绍自然语言处理(Natural Language Processing, NLP)领域的一些国内外著名会议和期刊。 自然语言处理(NLP)和计算语言学(Computational Linguistics, CL)有很多重合之处。国际会议ACL、EMNLP、NAACL 和 COLING 可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的(均由 ACL 举办...转载 2019-01-28 16:42:47 · 20266 阅读 · 0 评论 -
Windows下安装基于python的接口哈工大语言技术平台pyltp
系统:Windows(64bit)python版本:python3.6.4pyltp版本:0.2.1初入实习生涯,偶然接触到了哈工大的ltp这个平台,不得不说,一深入了解感觉怎个厉害了得,之前大多是基于Stanford coreNLP进行NLP的基础技术实线以及依据jieba、中科院系统分词,但并没有一个专门针对中文的整套系统,看到ltp,哈哈哈,确认过眼神,你是我遇到的对的人^_^...原创 2019-01-23 14:06:29 · 469 阅读 · 0 评论 -
中英文词向量资源合集
主要针对当前NLP领域表现较好的词向量模型进行一下整理,分为中文和英文领域。1.中文针对中文领域,不需要再去找什么资源,github上提供了中文NLP的一个利器,去里面下载即可。下载链接:https://github.com/Embedding/Chinese-Word-Vectors除此之外,由腾讯的AILab发布的词向量模型表现也很不错:https://ai.tencent...原创 2019-03-01 10:33:40 · 5918 阅读 · 1 评论 -
MatlabR2016a安装及破解教程
链接地址:https://blog.csdn.net/qq_38386316/article/details/78302147转载 2019-03-04 18:11:06 · 678 阅读 · 0 评论 -
采用Pycharm上传项目到GitHub
pycharm中设置在pycharm需要配置github的账户名和密码,以及要提交的仓库,具体操作如下File-settings 在搜索框输入git如上面图所示,搜索框会出现github,然后在旁边输入你github的用户名和密码,可以点击”test”测试一下,如果出现:Connection successful 说明连接成功。(注意!!!这里using ssh最好不选,否则出现...原创 2018-08-29 20:02:33 · 536 阅读 · 0 评论 -
Git更新本地项目至Github
第一步:打开Github网站:https://github.com/,登录自己的账号。第二步:如下图所示,点击Your profile,进入仓库管理:第三步:如下图所示,新建仓库:仓库命名Test:仓库创建成功:上图已经写清楚了Github上传项目的方法,有两种方法:一种通过https,一种通过ssh。我刚开始是使用ssh的方法,不过一直报错,就直接换了...原创 2018-08-29 14:42:30 · 5014 阅读 · 0 评论 -
PYNLPIR过期问题解决---License
本篇讲的是Python环境,但是其他环境原理相同 但是如果你使用的java环境,或许 JAVA环境 解决NLPIR的License过期问题 可以更好地帮助你执行代码import pynlpirpynlpir.open()str = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'print(pynlpir.segment(str))12345原创 2017-12-02 13:50:37 · 7292 阅读 · 3 评论 -
Mac环境下载github项目中的某个文件夹或者文件
1.解释 有时候由于project太大或者不想下载项目的所有文件,只需要下载单个文件或者文件夹,这个时候使用git就比较麻烦了。 github下载pdf文件,使用右键链接另存为的时候下载的文件无法打开,50K左右。应该是没下载下来。 另外github听说不支持git clone某个文件或者文件夹,为的是保证project的完整性 而使用SVN就没问题了2.下载安装SVN:原创 2017-12-03 14:52:22 · 4986 阅读 · 0 评论 -
python – 基于pandas中的列中的值从DataFrame中选择行
https://www.cnblogs.com/to-creat/p/7724562.html转载 2018-02-14 15:01:47 · 301 阅读 · 0 评论 -
相关系数矩阵可视化(生成热力图)
对其中的参数进行解释plt.subplots(figsize=(9, 9))设置画面大小,会使得整个画面等比例放大的sns.heapmap()这个当然是用来生成热力图的啦df是DataFrame, pandas的这个类还是很常用的啦~df.corr()就是得到这个dataframe的相关系数矩阵把这个矩阵直接丢给sns.heapmap中做参数就好啦sns.heapmap中annot=True,意思...原创 2018-04-16 19:09:26 · 17098 阅读 · 1 评论 -
计算python程序运行时间
方法1import datetimestarttime = datetime.datetime.now()#long runningendtime = datetime.datetime.now()print (endtime - starttime).seconds方法 2start = time.time()run_fun()end = time.time()print end-start方法...原创 2018-04-18 15:20:55 · 261 阅读 · 0 评论 -
ValueError: Masked arrays must be 1-D
问题说明使用numpy画散点图出现以上问题。(《机器学习-算法原理与编程实践》第7页)原代码如下:import numpy as npimport matplotlib.pyplot as pltdataSet=np.random.rand(2,10)dataSet=np.mat(dataSet)#1print(dataSet)plt.scatter(dataSet[0],dataS...原创 2018-04-22 19:32:23 · 2388 阅读 · 1 评论 -
吴恩达机器学习、深度学习课程地址及笔记
机器学习课程地址:https://www.coursera.org/course/ml笔记地址:http://www.ai-start.com/ml2014/深度学习课程地址:https://mooc.study.163.com/university/deeplearning_ai#/c笔记地址:http://www.ai-start.com/dl2017/...原创 2018-05-10 11:44:50 · 3922 阅读 · 0 评论 -
Windows下在anaconda环境中安装自然语言处理工具---Spacy
我的环境为:python3.6.2,win64有两种安装方法:Solution1: pip安装直接在conda命令行界面输入 pip install spacy一直报错:Microsoft Office C++ 14.0 is required。So,按照error提示安装了VS,结果发现运行pip install spacy仍然包同样的bug!然后仔细查看安装的日志log,发现其中有几个库不匹配...原创 2018-05-06 21:34:30 · 6611 阅读 · 2 评论 -
MSCOCO数据集资源
登录ms-co-co数据集官网,一直不能进入,翻墙之后开看到下载链接。有了下载链接下载还是很快的,在我这儿晚上下载,速度能达到7M/s,所以也不上传到网盘了,有需要的人等夜深人静的时候下载效果更佳哦。我把2017的数据集下载链接贴上来,linux下wget非常快,不知道为什么迅雷不能下载,顺便说一下wget断点续传 wget -c httpcoco数据集下载链接各个链接的意思看链接里面的描述基本上...原创 2018-06-14 13:42:20 · 1389 阅读 · 0 评论 -
多分类问题中的精确率与召回率
在信息检索中,精确率通常用于评价结果的质量,而召回率用来评价结果的完整性。实际上,精确度(precision)是二元分类问题中一个常用的指标。 精确度就是标记为“正”,而确实是”正“的样本占所有标记为“正”的样本的比例。 TPTP+FPTPTP+FP 和精确率一起出现的还有另一个指标召回率(recall), TPTP+FNTPTP+FN 在所有预测为正的样本中,确实为...原创 2018-08-08 14:40:04 · 19226 阅读 · 1 评论 -
论文A simple but tough-to-beat baseline for sentence embedding
转载自https://blog.csdn.net/sinat_31188625/article/details/72677088论文原文:A simple but tough-to-beat baseline for sentence embedding引言在神经网络泛滥的时候,这篇文章像一股清流,提出了一个无监督的句子建模方法,并且给出了该方法的一些理论解释。通过该方法得到的句子向量...转载 2018-08-17 16:18:12 · 507 阅读 · 0 评论 -
CNN用于句子分类时的超参数调试经验
根据“A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification”这篇paper得到的经验。这篇paper的主要工作是对“Convolutional Naural Networks for Sentence Classificati...原创 2018-08-31 15:07:47 · 708 阅读 · 0 评论 -
加载GloVe模型和Word2Vec模型
1 Google用word2vec预训练了300维的新闻语料的词向量googlenews-vecctors-negative300.bin,解压后3.39个G。可以用gensim加载进来,但是需要内存足够大。#加载Google训练的词向量import gensimmodel = gensim.models.KeyedVectors.load_word2vec_format('Go...原创 2018-08-29 14:07:45 · 4427 阅读 · 0 评论 -
Pycharm创建py文件时自定义头部模板
# -*- coding: utf-8 -*-"""------------------------------------------------- File Name: ${NAME} Description : Author : ${USER} date: ${DATE}--------------------------...原创 2018-03-02 13:33:59 · 1045 阅读 · 0 评论