自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq280929090的专栏

菜鸟的成长

  • 博客(73)
  • 资源 (22)
  • 收藏
  • 关注

原创 基于Zotero和坚果云的大规模文献同步管理环境配置及常用功能介绍(超详细)

本博客主要介绍一些安装步骤,至于为什么使用这套文献管理方法或者一些专有名词并不做出相应的解释,同步的设置在家、在学校、在宿舍还是应该写得小白一点,因为做学术的有方方面面的人,计算机只是一小部分,如果写得太专业,其它研究方向的人就看不懂了即使使用外部阅读器也没区别,因为我在每台电脑上面都会安装福晰阅读器...

2020-11-16 20:11:15 1254 1

原创 基于Visual Studio Code的 LaTeX环境配置及使用示例(超详细)

   本博客主要介绍如何在Visual Studio Code (VS Code)上配置LaTeX的编写环境,主要包括如下几个软件/工具的安装配置以及正反向搜索的配置:TeX LiveVS Code(含插件)SumatraPDF1. TeX Live   在这里我们采用在线安装的方式安装TeX Live,具体执行步骤如下:在TeX Live下载界面选择适合自己...

2020-02-17 18:46:01 24747 7

原创 拉普拉斯矩阵(Laplacian matrix)及其变体详解

   拉普拉斯矩阵(Laplacian matrix) 也叫做导纳矩阵、基尔霍夫矩阵或离散拉普拉斯算子,是图论中用于表示图的一种重要矩阵。定义   给定一个具有nnn个顶点的简单图G=(V,E)G=(V, E)G=(V,E),VVV为顶点集合,EEE为边集合,其拉普拉斯矩阵可定义为:L=D−AL=D-AL=D−A其中A∈Rn×nA \in \mathbb{R}^{n \t...

2019-12-18 10:36:27 17959 1

原创 常见特征缩放方法详解(含义、作用、适用场景)

本博客致力于整理出KDD/SIGKDD 2019接收的所有论文,包括题目、作者、摘要等重要信息,能够方便广大读者迅速找到自己领域相关的论文。

2019-07-26 08:45:56 5092

原创 ICML 2019 Accepted Papers (Title, Author, Abstract, Code) (001-150)

Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:Title:Author:Abstract:...

2019-07-14 08:14:27 5179

原创 ACL 2018接受论文集(题目、作者、摘要)

题目: 作者: 摘要:

2018-08-18 07:28:01 3225

原创 lambda函数详细介绍(Python)

待。。。

2018-08-12 15:08:02 4411 1

原创 损失函数总结(理论原理、使用场景)

待。。。

2018-07-15 11:13:15 2505 7

转载 经典的文本数据预处理流程(转)

首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。去除停用词,得到最终的词列表本文转自:https://blog.csdn.net/yc1203968305/article/details/79062182...

2018-06-25 14:48:07 760

转载 文本挖掘预处理的流程总结(转)

最近半年一直忙于项目,博客也很少更新咯。有几个项目做了不少JS相关的工作,基本都可以利用现成的开源方案,诸如angularJs、requireJs、bootstrap、knockoutJs、TypeScript、Jquery等等;之后也有项目是无UI的,纯后端的内容,主要就是考虑并行、性能、模块化等;之后的很长一段时间便主要在处理文本挖掘相关的项目(英文项目)。今天正好有空也准备对文本挖掘预处理的...

2018-06-25 14:40:07 730

转载 文本分类的数据预处理流程介绍

  在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。 文档切分   文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如...

2018-06-25 13:01:07 4048

转载 英文文本挖掘预处理流程总结(转)

特点  英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文文本都是uft-8的编码,这样在大多数时候处理的时候不用考虑编码转换的问题,而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。   而英文文本的预处理也有自己特殊的地方,第三点就是拼写问题,很...

2018-06-25 12:54:05 865

转载 中文文本挖掘预处理流程总结(转)

  在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点  中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。   第一,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本...

2018-06-24 16:44:57 492

转载 Sigmoid函数

Sigmoid函数是一个有着优美S形曲线的数学函数,在逻辑回归、人工神经网络中有着广泛的应用。Sigmoid函数的数学形式是: f(x)=11+e−x其函数图像如下: 可以看出,sigmoid函数连续,光滑,严格单调,以(0,0.5)中心对称,是一个非常良好的阈值函数。当x趋近负无穷时,y趋近于0;趋近于正无穷时,y趋近于1;x=0时,y=0.5。当然,在x超出[-6,6]的范围后,函数值基本上没...

2018-06-01 21:07:08 4556

原创 【自然语言处理】英文开源工具汇总()

本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产权等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 斯坦福大学语言:Java功能:分词、词性标注、命名实体识别、语法解析、分类。介绍:Stanford NLP Group是斯坦福大学自然语言处理的团队,开发了多个NLP工具,官网网址。由...

2018-03-24 10:17:06 1342

原创 【自然语言处理】中文开源工具汇总(7种)

本博客主要是对网络上的一些关于中文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产品等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 IKAnalyzer语言:Java功能:支持细粒度和智能分词两种切分模式;支持英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符;支持用户自定义的词典,通过配置IKAnalyzer...

2018-03-24 09:35:10 7400

转载 【Python学习】Counter()计数工具

class collections.Counter([iterable-or-mapping])Counter 是实现的 dict 的一个子类,可以用来方便地计数。例子举个计数的例子,需要统计一个文件中,每个单词出现的次数。实现方法如下# 普通青年d = {}with open('/etc/passwd') as f: for line in f: for word i...

2018-03-22 15:09:25 7057

转载 【深度学习】batch size详解

谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地...

2018-03-22 14:45:42 4577

转载 【深度学习】多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

1. 前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI。为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务。然后,我们通过精细调参,来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好。具体来说,这些信息就是相关任务的监督数据。通过在相关任务间共享表示信...

2018-03-22 09:28:02 3283

转载 【Python学习】标准库--pathlib

导入Path类from pathlib import Path1创建Path对象p = Path('C:\Windows\System32') # 用C:\Windows\System32创建Path对象1打印p中路径print(p)1p的父路径p.parent1所有p的祖辈路径p.parents #返回一个列表,序号越大离p越远1p目录下的所有文件p.iterdir() # 返回一个迭代器...

2018-03-20 00:39:42 317

原创 【Python学习】特殊函数 __call__()

__call__在Python中,函数其实是一个对象:>>> f = abs>>> f.__name__'abs'>>> f(-123)123由于 f 可以被调用,所以,f 被称为可调用对象。所有的函数都是可调用对象。>>> p = Person('Bob', 'male')>>> p('T

2018-03-18 20:45:57 223

原创 【Python学习】函数参数:必选参数、默认参数、可变参数、关键字参数、参数组合

定义函数的时候,我们把参数的名字和位置确定下来,函数的接口定义就完成了。对于函数的调用者来说,只需要知道如何传递正确的参数,以及函数将返回什么样的值就够了,函数内部的复杂逻辑被封装起来,调用者无需了解。Python的函数定义非常简单,但灵活度却非常大。除了正常定义的必选参数外,还可以使用默认参数、可变参数和关键字参数,使得函数定义出来的接口,不但能处理复杂的参数,还可以简化调用者的代码。必选参数我...

2018-03-18 20:34:36 727

转载 【Python学习】collections模块的Counter类

1.collections模块collections模块自Python 2.4版本开始被引入,包含了dict、set、list、tuple以外的一些特殊的容器类型,分别是:OrderedDict类:排序字典,是字典的子类。引入自2.7。namedtuple()函数:命名元组,是一个工厂函数。引入自2.6。Counter类:为hashable对象计数,是字典的子类。引入自2.7。deque:双向队列...

2018-03-18 12:46:44 693

转载 【Linux学习】Anaconda多环境多版本python配置指导

最近学python,读完了语法后在GitHub找了一些练习来做,由于学的是python3.x语法,而GitHub上的好多练习源码都是基于2.x的,有些module在python3.x上没有,因此为装这些包折腾了好久,浪费了好些时间,这两天才发现Anaconda这个神奇的软件,一些常用的包都打包在里边了。安装完成之后也遇到了不少麻烦,可能是由于初学,不习惯用命令行的缘故,因此网上有不少中文教程,但总...

2018-03-16 19:36:57 1397

转载 【深度学习】batch_size的作用

首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。其二,由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Learn...

2018-03-16 19:25:44 2927

原创 【Python学习】argparse用法总结

First:2018-03-161. argparse介绍是python的一个命令行解析包,非常编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件,放在/tmp目录下,其内容如下:#!/usr/bin/env python# encoding: utf-8import argparseparser = argparse.ArgumentPars...

2018-03-16 12:40:19 328

转载 【Java学习】Java方法的静态绑定与动态绑定讲解

转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6554103.html    一:绑定        把一个方法与其所在的类/对象 关联起来叫做方法的绑定。绑定分为静态绑定(前期绑定)和动态绑定(后期绑定)。       二:静态绑定        静态绑定(前期绑定)是指:在程序运行前就已经知道方法是属于那个类的,在编译的时候就可以连接到类的中,定位到这个...

2018-03-13 19:07:25 135

转载 【Java学习】java语言的执行模式--半编译和半解释型

1,相关概念 1)编译方式:   编译方式把源程序的执行过程严格地分成两大步:编译和运行。   ①把源程序全部翻译成目标代码   ②运行目标代码,获取执行结果。 2)解释方式:   源程序输入到计算机后,解释程序将程序逐句翻译,翻译一句执行一句边翻译边执行,不产生目标程序。   解释方式是按照远程序中语句的动态顺序,直接地逐句进行分析解释,并立即执行。   解释的过程:在程序执行时开始翻译代码为二...

2018-03-10 13:55:28 2360

转载 【机器学习】损失函数:Hinge Loss(max margin)

Hinge Loss简介Hinge Loss是一种目标函数(或者说损失函数)的名称,有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。其二分类情况下,公式如下: l(y)=max(0,1−t⋅y)其中,y是预测值(-1到1之间),t为目标值(±1)。其含义为,y的值在-1到1之间就可以了,并不鼓励|y|>1,即并不鼓励分类器过度自信,让某个可以正确...

2018-01-28 11:25:06 1174

转载 【Java学习】classpath和路径的使用

javac -classpath的使用:javac:如果当前你要编译的java文件中引用了其它的类(比如说:继承),但该引用类的.class文件不在当前目录下,这种情况下就需要在javac命令后面加上-classpath参数,通过使用以下三种类型的方法 来指导编译器在编译的时候去指定的路径下查找引用类。(1).绝对路径:javac -classpath c:/junit3.8.1/junit.ja...

2018-01-18 10:13:02 190

原创 【自然语言处理】标注体系:IO, BIO, BMEWO, and BMEWO+

IO EncodingThe simplest encoding is the IO encoding, which tags each token as either being in (I_X) a particular type of named entity type X or in no entity (O). This encoding is defective in that it ...

2018-01-09 12:45:51 8548

转载 【Python学习】位置参数和关键字参数分析

刚学用Python的时候,特别是看一些库的源码时,经常会看到func(*args, **kwargs)这样的函数定义,这个*和**让人有点费解。其实只要把函数参数定义搞清楚了,就不难理解了。先说说函数定义,我们都知道,下面的代码定义了一个函数funcAdef funcA():  pass    显然,函数funcA没有参数(同时啥也不干:D)。下面这个函数funcB就有两个参数了,def func...

2018-01-05 20:43:04 2016

原创 【Python学习】Python Error : ImportError: No module named 'xml.etree'

因为下载的python当中,已经包含了xml.py文件,或者名为xml的文件夹。在导入模块的时候,python的机制是会默认从当前项目的目录开始。所以,在项目里面,不能存在名为xml的py文件(即xml.py),也不能存在名为xml的文件夹...

2017-12-21 09:31:34 4970

原创 【机器学习】深入理解--信息熵(Information Entropy)

信息信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。信息可不可以被量化,怎样量化?人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语...

2017-09-29 16:50:16 13724 1

转载 【Python学习】python3 NameError: name 'xrange' is not defined

问题:for x in xrange(1,10,2): if x==5: continue print(x)12345for x in xrange(1,10,2): NameError: name ‘xrange’ is not defined解决: 在3中,xrange由range替代for x in range(1,10,2): if x==5: ...

2017-09-10 19:45:37 1072

转载 【Python学习】同时安装了python2和python3,如何使用pip

国内网站解法把其中一个python.exe改名字,即python.exe和pythonw.exe改为python2.exe和pythonw2.exe,但是被修改了名字的python对应的pip无法使用官方解法Python社区:我们在安装Python3(>=3.3)时,Python的安装包实际上在系统中安装了一个启动器py.exe,默认放置在文件夹C:\Windows\下面。这个启动器允许我们...

2017-09-10 19:30:47 365

原创 CSDN Markdown的使用

本博客首先参考了王海庆老师关于markdown的教学视频和博客,视频网址为:markdown教学视频1、Markdown1.1、Markdown的定义1.2、Markdown的优缺点2、Markdown的基本语法2.1、文本格式化2.1.1、斜体斜体有以下几种方式: 1. 使用方式一如下图: 即将需要倾斜的文字放入两个*号中间。 2. 使用方式二如下图: 即将需要倾斜的文字放入两

2017-08-01 20:21:41 314

转载 查看windows操作系统的默认编码

如何查看操作系统字符集?在Windows平台下,进入DOS窗口,输入:chcp可以得到操作系统的代码页信息,你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。例如:我的活动代码页为:936,它对于的编码格式为GBK。转自于:http://blog.csdn.net/java_belucky/article/details/18311225

2017-07-11 11:00:11 7376

原创 【Java学习】命令行下编译java程序,出现错误:编码GBK的不可映射字符

原因:由于JDK是国际版的,在编译的时候,如果我们没有用-encoding参数指定我们的JAVA源程序的编码格式,则javac.exe首先获得我们操作系统默认采用的编码格式,也即在编译java程序时,若我们不指定源程序文件的编码格式,JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式,如WIN2k,它的值为GBK),然后JDK就把我们的java源程序从fil...

2017-07-11 10:56:01 751

转载 【机器学习】k-折交叉验证(k-fold cross-validation)

k-重交叉验证(k-fold crossValidation):在机器学习中,将数据集A 分为训练集(training set)B和测试集(testset)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。在matlab中,可以利用:indices=crossvalind(‘Kf...

2017-05-04 10:54:53 3785

stanford-corenlp-full-2014-08-27

斯坦福大学自然语言处理研究组发布的有关自然语言处理的核心jar包,可用于分词等操作

2018-08-27

Web of Science使用指南

分成四个部分:1、科学信息在科研过程中的作用;2、Web of Science及引文索引简介;3、如何利用Web of Science核心集合为科研服务;4、如何获得更多的学习资源助力科研

2018-04-27

BeerAdvocate--Preprocess

该语料为啤酒评论数据,共150W条评论,可用于细粒度的情感分析任务当中,即aspect extraction任务当中。 由于资源大小的限制,本资源分为原始数据和处理后的数据,该文件为处理后数据。在处理后数据当中,包含相应的词嵌入模型。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

BeerAdvocate--Source

该语料为啤酒评论数据,共150W条评论,可用于细粒度的情感分析任务当中,即aspect extraction任务当中。 由于资源大小的限制,本资源分为原始数据和处理后的数据,该文件为原始数据。在原始数据当中,包含1000条带标注信息的评论,共9245条句子,标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

Citysearch Corpus

该语料库为餐馆评论数据,收集自Citysearch New York网站,可用于细粒度的情感分析任务中,即aspect extraction任务当中。在本资源中,原始数据中包含28W条无标注信息的训练数据,以及3400条带标准信息的测试数据。此外,资源中还包括对原始数据进行处理后的数版本,及已经训练好的词嵌入模型。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

NLPCC2012评估任务_面向中文微博的情感分析

该语料主要用于中文微博中的情感句识别、情感倾向性分析和情感要素抽取。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_跨领域情感分类

给定已标注倾向性的英文评论数据和英文情感词典,要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力,有助于解决不同语言中情感资源分布的不均衡问题。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博情绪识别

该语料主要用于识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博观点要素抽取

该语料主要用于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成,每个主题各一百条,内含标注及数据说明。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2014评估任务2_基于深度学习的情感分类

该语料共包含中文和英文两种语言,主要是商品评论,评论篇幅都比较短,可以被应用于篇章级或者句子级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个文件,共有正向和负向两种极性。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

MPQA(Multiple-Perspective QA)

Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息,如观点持有者、评价对象、主观表达式以及其极性与强度。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

康奈尔影评数据集

该语料由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各5000句。该语料可以被应用于各种粒度的,如词语、句子和篇章级情感分析研究中。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网主张词语词典

该词典主要发呢为中文和英文两部分,共包含如下数据:中文主张词语38个、英文主张词语35个。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网程度级别词语词典

该词典主要发呢为中文和英文两部分,共包含如下数据:中文程度级别词语219个、英文程度级别词语170个。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

台湾大学中文情感极性词典

该词典为简体的情感极性词典,共包含2812个正向情感词和8278个负向情感词,可以用于二元情感分类任务当中。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

大连理工大学情感词汇本体库(无辅助情感分类)

该资源主要用于情感分析中,而且是基于规则的算法,主要是提供情感极性、程度等先验知识。在该词典当中,每个情感词都被分为正向、负向、中性三个情感极性,并具有从0到10等不同大小的情感程度,且分为七个情感大类(乐、好、怒、哀、惧、恶、惊)和21个小类。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

SemEval-2014 Task 4数据集

SemEval-2014 Task 4数据集主要用于细粒度情感分析,包含Laptop和Restaurant两个领域,每个领域的数据集都分为训练数据、验证数据(从训练数据分离出来)和测试数据,非常适用于有监督的机器学习算法或者深度学习算法,如LSTM等。文件格式为.xml。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

中文停用词列表

根据网上现有全部资源,对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表,整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来,一共1598个。

2017-10-22

Deep Learning Book (深度学习)中文版 2017-07-27版

最新的深度学习中文版pdf

2017-08-08

Python 3 Text Processing with NLTK 3 Cookbook

Python 3 Text Processing with NLTK 3 Cookbook

2017-04-27

谭松波-酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论

2017-04-19

JAVA实现ElasticSearch的简单实例

在eclipse上,操作elasticsearch的简单程序

2016-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除