2018年03月_qq280929090

08月 07月 06月 03月 01月

原创【自然语言处理】英文开源工具汇总（）

本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总，如果有涉及到您的知识产权等，请联系本人已进行修改，也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 斯坦福大学语言：Java功能：分词、词性标注、命名实体识别、语法解析、分类。介绍：Stanford NLP Group是斯坦福大学自然语言处理的团队，开发了多个NLP工具，官网网址。由...

2018-03-24 10:17:06 1364

原创【自然语言处理】中文开源工具汇总（7种）

本博客主要是对网络上的一些关于中文自然语言处理开源工具的博客进行整理、汇总，如果有涉及到您的知识产品等，请联系本人已进行修改，也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 IKAnalyzer语言：Java功能：支持细粒度和智能分词两种切分模式；支持英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符；支持用户自定义的词典，通过配置IKAnalyzer...

2018-03-24 09:35:10 7543

转载【Python学习】Counter()计数工具

class collections.Counter([iterable-or-mapping])Counter 是实现的 dict 的一个子类，可以用来方便地计数。例子举个计数的例子，需要统计一个文件中，每个单词出现的次数。实现方法如下# 普通青年d = {}with open('/etc/passwd') as f: for line in f: for word i...

2018-03-22 15:09:25 7084

转载【深度学习】batch size详解

谈谈深度学习中的 Batch_SizeBatch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，下面逐一展开。首先，为什么需要有 Batch_Size 这个参数？Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地...

2018-03-22 14:45:42 4725

转载【深度学习】多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

1. 前言在机器学习中，我们通常关心优化某一特定指标，不管这个指标是一个标准值，还是企业KPI。为了达到这个目标，我们训练单一模型或多个模型集合来完成指定得任务。然后，我们通过精细调参，来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能，但是我们可能忽略了一些信息，这些信息有助于在我们关心的指标上做得更好。具体来说，这些信息就是相关任务的监督数据。通过在相关任务间共享表示信...

2018-03-22 09:28:02 3356

转载【Python学习】标准库--pathlib

导入Path类from pathlib import Path1创建Path对象p = Path('C:\Windows\System32') # 用C:\Windows\System32创建Path对象1打印p中路径print(p)1p的父路径p.parent1所有p的祖辈路径p.parents #返回一个列表，序号越大离p越远1p目录下的所有文件p.iterdir() # 返回一个迭代器...

2018-03-20 00:39:42 331

原创【Python学习】特殊函数 call()

__call__在Python中，函数其实是一个对象：>>> f = abs>>> f.__name__'abs'>>> f(-123)123由于 f 可以被调用，所以，f 被称为可调用对象。所有的函数都是可调用对象。>>> p = Person('Bob', 'male')>>> p('T

2018-03-18 20:45:57 235

原创【Python学习】函数参数：必选参数、默认参数、可变参数、关键字参数、参数组合

定义函数的时候，我们把参数的名字和位置确定下来，函数的接口定义就完成了。对于函数的调用者来说，只需要知道如何传递正确的参数，以及函数将返回什么样的值就够了，函数内部的复杂逻辑被封装起来，调用者无需了解。Python的函数定义非常简单，但灵活度却非常大。除了正常定义的必选参数外，还可以使用默认参数、可变参数和关键字参数，使得函数定义出来的接口，不但能处理复杂的参数，还可以简化调用者的代码。必选参数我...

2018-03-18 20:34:36 783

转载【Python学习】collections模块的Counter类

1.collections模块collections模块自Python 2.4版本开始被引入，包含了dict、set、list、tuple以外的一些特殊的容器类型，分别是：OrderedDict类：排序字典，是字典的子类。引入自2.7。namedtuple()函数：命名元组，是一个工厂函数。引入自2.6。Counter类：为hashable对象计数，是字典的子类。引入自2.7。deque：双向队列...

2018-03-18 12:46:44 710

转载【Linux学习】Anaconda多环境多版本python配置指导

最近学python，读完了语法后在GitHub找了一些练习来做，由于学的是python3.x语法，而GitHub上的好多练习源码都是基于2.x的，有些module在python3.x上没有，因此为装这些包折腾了好久，浪费了好些时间，这两天才发现Anaconda这个神奇的软件，一些常用的包都打包在里边了。安装完成之后也遇到了不少麻烦，可能是由于初学，不习惯用命令行的缘故，因此网上有不少中文教程，但总...

2018-03-16 19:36:57 1473

转载【深度学习】batch_size的作用

首先，为什么需要有 Batch_Size 这个参数？Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。其二，由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。 Full Batch Learn...

2018-03-16 19:25:44 2973

原创【Python学习】argparse用法总结

First:2018-03-161. argparse介绍是python的一个命令行解析包，非常编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件，放在/tmp目录下，其内容如下：#!/usr/bin/env python# encoding: utf-8import argparseparser = argparse.ArgumentPars...

2018-03-16 12:40:19 350

转载【Java学习】Java方法的静态绑定与动态绑定讲解

转载请注明原文地址：http://www.cnblogs.com/ygj0930/p/6554103.html 一：绑定把一个方法与其所在的类/对象关联起来叫做方法的绑定。绑定分为静态绑定（前期绑定）和动态绑定（后期绑定）。二：静态绑定静态绑定（前期绑定）是指：在程序运行前就已经知道方法是属于那个类的，在编译的时候就可以连接到类的中，定位到这个...

2018-03-13 19:07:25 146

转载【Java学习】java语言的执行模式--半编译和半解释型

1，相关概念 1）编译方式：编译方式把源程序的执行过程严格地分成两大步：编译和运行。 ①把源程序全部翻译成目标代码 ②运行目标代码，获取执行结果。 2）解释方式：源程序输入到计算机后，解释程序将程序逐句翻译，翻译一句执行一句边翻译边执行，不产生目标程序。解释方式是按照远程序中语句的动态顺序，直接地逐句进行分析解释，并立即执行。解释的过程：在程序执行时开始翻译代码为二...

2018-03-10 13:55:28 2443

stanford-corenlp-full-2014-08-27

斯坦福大学自然语言处理研究组发布的有关自然语言处理的核心jar包，可用于分词等操作

2018-08-27

BeerAdvocate--Preprocess

该语料为啤酒评论数据，共150W条评论，可用于细粒度的情感分析任务当中，即aspect extraction任务当中。由于资源大小的限制，本资源分为原始数据和处理后的数据，该文件为处理后数据。在处理后数据当中，包含相应的词嵌入模型。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

BeerAdvocate--Source

该语料为啤酒评论数据，共150W条评论，可用于细粒度的情感分析任务当中，即aspect extraction任务当中。由于资源大小的限制，本资源分为原始数据和处理后的数据，该文件为原始数据。在原始数据当中，包含1000条带标注信息的评论，共9245条句子，标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

Citysearch Corpus

该语料库为餐馆评论数据，收集自Citysearch New York网站，可用于细粒度的情感分析任务中，即aspect extraction任务当中。在本资源中，原始数据中包含28W条无标注信息的训练数据，以及3400条带标准信息的测试数据。此外，资源中还包括对原始数据进行处理后的数版本，及已经训练好的词嵌入模型。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

NLPCC2012评估任务_面向中文微博的情感分析

该语料主要用于中文微博中的情感句识别、情感倾向性分析和情感要素抽取。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_跨领域情感分类

给定已标注倾向性的英文评论数据和英文情感词典，要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力，有助于解决不同语言中情感资源分布的不均衡问题。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博情绪识别

该语料主要用于识别出整条微博所表达的情绪，不是简单的褒贬分类，而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等)，属于细粒度的情感分类问题。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博观点要素抽取

该语料主要用于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成，每个主题各一百条，内含标注及数据说明。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2014评估任务2_基于深度学习的情感分类

该语料共包含中文和英文两种语言，主要是商品评论，评论篇幅都比较短，可以被应用于篇章级或者句子级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个文件，共有正向和负向两种极性。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

MPQA（Multiple-Perspective QA）

Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库：包含535 篇不同视角的新闻评论，它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息，如观点持有者、评价对象、主观表达式以及其极性与强度。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

康奈尔影评数据集

该语料由电影评论组成，其中持肯定和否定态度的各1,000 篇；另外还有标注了褒贬极性的句子各5331句，标注了主客观标签的句子各5000句。该语料可以被应用于各种粒度的，如词语、句子和篇章级情感分析研究中。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网主张词语词典

该词典主要发呢为中文和英文两部分，共包含如下数据：中文主张词语38个、英文主张词语35个。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网程度级别词语词典

该词典主要发呢为中文和英文两部分，共包含如下数据：中文程度级别词语219个、英文程度级别词语170个。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

台湾大学中文情感极性词典

该词典为简体的情感极性词典，共包含2812个正向情感词和8278个负向情感词，可以用于二元情感分类任务当中。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

大连理工大学情感词汇本体库（无辅助情感分类）

该资源主要用于情感分析中，而且是基于规则的算法，主要是提供情感极性、程度等先验知识。在该词典当中，每个情感词都被分为正向、负向、中性三个情感极性，并具有从0到10等不同大小的情感程度，且分为七个情感大类（乐、好、怒、哀、惧、恶、惊）和21个小类。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

SemEval-2014 Task 4数据集

SemEval-2014 Task 4数据集主要用于细粒度情感分析，包含Laptop和Restaurant两个领域，每个领域的数据集都分为训练数据、验证数据（从训练数据分离出来）和测试数据，非常适用于有监督的机器学习算法或者深度学习算法，如LSTM等。文件格式为.xml。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

中文停用词列表

根据网上现有全部资源，对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表，整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来，一共1598个。

2017-10-22

Deep Learning Book (深度学习)中文版 2017-07-27版

最新的深度学习中文版pdf

2017-08-08

谭松波-酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论

2017-04-19

JAVA实现ElasticSearch的简单实例

在eclipse上，操作elasticsearch的简单程序

2016-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人