建立联合表

1. 训练停词表,文件夹下每个txt文件,按照关键词提取出topK20 ,合并成一个list,用collection方法得到该文件下所有txt关键词top100 的常用词,然后生成keywords_freq.txt(没有词频,相当于等效),再从这个txt文件中找出top300的常用词 作为停词表

2. 用停词表重新找出hubei_legal每个文件的关键词top10

3. 训练xinhua_news停词表,用该停词表找出xinhua每个文件的关键词top10

4. 做一个qiyjben.csv 建立公司名和legal、news的关系

转载于:https://www.cnblogs.com/ming666/p/9713983.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值