对文本分类词库的设计

一个分析搜狗分类语料库的程序,分词并使用TF/IDF计算每个词在此类的权重,分词使用的是海量分词研究版,之后统计词频、去停用词、计算TF/IDF。

本来想贴代码的,一看全是基本的map、vector之类的操作,没什么技术含量……计算的结果倒是可以贴一些:如下

招聘类:

741.109 资源
741.823 生活
742.986 时间
748.132 选择
748.569 求职
751.754 规划
758.658 记者
760.346 要求
785.368 没有
785.549 上海
832.256 能力
834.523 调查
835.422 客户
843.008 管理
844.506 职位
844.835 培训
858.591 学生
863.976 女性
868.68 跳槽
892.525 同事
902.101 问题
906.488 市场
907.209 经理
911.005 人员
986.306 发展
991.938 一个
1008.29 专业
1037.2 大学生
1037.21 工资
1062.23 单位
1104.34 中国
1106.62 就业
1143.15 简历 
1158.79 工作
1170.03 行业
1173.69 毕业生
1390.23 老板
1434.73 招聘
1456.11 员工
1531.04 面试
1635.24 公司
1639.37 职业
1685.47 人才
2269.35 企业

体育类:

517.24 国家队
521.097 体育
521.236 北京
524.15 表示
529.593 天津队
529.868 选手
530.558 表现
548.434 足球
557.282 决赛
566.471 实德
567.312 进行
567.928 不中
569.349 时间
573.554 获得
575.671 机会
579.21 领先
583.224 训练
587.94 进球
591.97 球迷
597.294 犯规
601.259 季后赛
603.778 得到
614.763 世界杯
618.797 纳什
620.318 最后
629.71 一个
635.721 刘翔
636.085 对手
638.379 防守
638.801 5月
649.576 篮板
657.968 已经
665.251 禁区
668.673 科比
701.367 跳投
705.403 进攻
706.378 申花
709.006 张宁
712.852 没有
714.861 主场
715.162 得分
718.364 比分
727.75 冠军
763.925 球队
771.737 球员
793.207 足协
793.414 队员
795.676 俱乐部
813.671 太阳
832.103 联赛
844.536 林丹
914.51 赛季
918.481 上半场
931.761 中国队
951.403 下半场
1070.26 比赛
1089.41 中国
1112.81 0:0
1210.86 sports007centLeft
3268.53 搜狐
3677.4 SetCookie
5615.21 直播

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值