文本情感分类python_pyhanlp文本分类与情感分析

语料库

本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。

用Map描述

这种关系可以用Java的Map来描述,其key代表类目,value代表该类目下的所有文档。用户可以利用自己的文本读取模块构造一个Map形式的中间语料库,然后利用IDataSet#add(java.util.Map)接口将其加入到训练语料库中。

用文件夹描述

这种树形结构也很适合用文件夹描述,即:

/**

* 加载数据集

*

* @param folderPath  分类语料的根目录.目录必须满足如下结构:

*                    根目录

*                    ├── 分类A

*                    │   └──1.txt

*                    │   └──2.txt

*                    │   └──3.txt

*                    ├── 分类B

*                    │   └──1.txt

*                    │   └──...

*                    └──...

*                    文件不一定需要用数字命名,也不需要以txt作为后缀名,但一定需要是文本文件.

* @param charsetName 文件编码

* @re

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值