Sklearn,xgboost机器学习多分类实验

一. 背景

多分类是一个机器学习的常见任务,本文将基于复旦大学中文文本分类语料,使用sklearn和xgboost来进行多分类实验

预装软件包:
1. Jieba分词:

环境: linux fedora 23 

源码安装https://github.com/fxsjy/jieba, 或者使用pipinstall jieba安装

2. Sklearn: 

fedora 下参考:http://www.centoscn.com/image-text/install/2014/0403/2715.html

3.xgboost:

https://github.com/dmlc/xgboost.git

安装好后进入到python-package:pythonsetup.py install

 

二. LCCT代码和数据集

1.代码

 LCCT  (Learning to Classify Chinese Text)

                   git  clone https://github.com/jaylenzhang/lcct.git

2.数据集

由复旦大学李荣陆提供。fudan_test.json为测试语料,共9833篇文档;fudan_train.json为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。本文将训练和测试数据混合一起进行5折交叉验证。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)

百度云: http://pan.baidu.com/s/1qYjk0Ni密码:dhs7

下载数据集后,在当前目录下创建data目录,并将文件解压。

数据集类别统计

类别

数据量

Economy

3200

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值