NLP之高频词提取

#jieba分词示例
def get_content(path):
    
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        content = ''
        for l in f:
            l = l.strip()
            content += l
        return content
def get_TF(words, topK=10):
    
    tf_dic = {}
    for w in words:
        tf_dic[w] = tf_dic.get(w, 0) + 1
    return sorted(tf_dic.items(), key = lambda x: x[1], reverse=True)[:topK]

def stop_words(path):
    with open(path,encoding='UTF-8') as f:
        return [l.strip() for l in f]
stop_words('data/stop_words.utf8')

#分词
def main():
    import glob
    import random
    import jieba
    
    files = glob.glob('data/news/C000013/*.txt')#查找符合特定规则的文件路径名
    corpus = [get_content(x) for x in files[:5]]
    
    
    sample_inx = random.randint(0, len(corpus))
    sample_inx = 3
    
    import jieba.posseg as psg
    
    split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./data/stop_words.utf8')]
    print('样本之一:'+corpus[sample_inx])
    print('样本分词效果:'+'/ '.join(split_words))
    print('样本的topK(10)词:'+str(get_TF(split_words)))
main()
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.858 seconds.
Prefix dict has been built succesfully.


样本之一:中国卫生部官员24日说,截至2005年底,中国各地报告的尘肺病病人累计已超过60万例,职业病整体防治形势严峻。卫生部副部长陈啸宏在当日举行的“国家职业卫生示范企业授牌暨企业职业卫生交流大会”上说,中国各类急性职业中毒事故每年发生200多起,上千人中毒,直接经济损失达上百亿元。职业病病人总量大、发病率较高、经济损失大、影响恶劣。卫生部24日公布,2005年卫生部共收到全国30个省、自治区、直辖市(不包括西藏、港、澳、台)各类职业病报告12212例,其中尘肺病病例报告9173例,占75.11%。陈啸宏说,矽肺和煤工尘肺是中国最主要的尘肺病,且尘肺病发病工龄在缩短。去年报告的尘肺病病人中最短接尘时间不足三个月,平均发病年龄40.9岁,最小发病年龄20岁。陈啸宏表示,政府部门执法不严、监督不力,企业生产水平不高、技术设备落后等是职业卫生问题严重的原因。“但更重要的原因是有些企业法制观念淡薄,社会责任严重缺位,缺乏维护职工健康的强烈的意识,职工的合法权益不能得到有效的保障。”他说。为提高企业对职业卫生工作的重视,卫生部、国家安全生产监督管理总局和中华全国总工会24日在京评选出56家国家级职业卫生工作示范企业,希望这些企业为社会推广职业病防治经验,促使其他企业作好职业卫生工作,保护劳动者健康。
样本分词效果:中国卫生部/ 官员/ 24/ 日/ 2005/ 年底/ 中国/ 各地/ 报告/ 尘肺病/ 病人/ 累计/ 超过/ 60/ 万例/ 职业病/ 整体/ 防治/ 形势严峻/ 卫生部/ 副/ 部长/ 陈啸宏/ 当日/ 举行/ 国家/ 职业/ 卫生/ 示范/ 企业/ 授牌/ 暨/ 企业/ 职业/ 卫生/ 交流/ 大会/ 中国/ 各类/ 急性/ 职业/ 中毒/ 事故/ 每年/ 发生/ 200/ 多起/ 上千人/ 中毒/ 直接/ 经济损失/ 达上/ 百亿元/ 职业病/ 病人/ 总量/ 发病率/ 高/ 经济损失/ 影响/ 恶劣/ 卫生部/ 24/ 日/ 公布/ 2005/ 年/ 卫生部/ 共/ 收到/ 全国/ 30/ 个省/ 自治区/ 直辖市/ 包括/ 西藏/ 港/ 澳/ 台/ 各类/ 职业病/ 报告/ 12212/ 例/ 尘肺病/ 病例/ 报告/ 9173/ 例/ 占/ 75/ ./ 11%/ 陈啸宏/ 矽肺/ 煤工/ 尘肺/ 中国/ 主要/ 尘肺病/ 尘肺病/ 发病/ 工龄/ 缩短/ 去年/ 报告/ 尘肺病/ 病人/ 中/ 短/ 接尘/ 时间/ 不足/ 三个/ 月/ 平均/ 发病/ 年龄/ 40/ ./ 岁/ 最小/ 发病/ 年龄/ 20/ 岁/ 陈啸宏/ 表示/ 政府部门/ 执法不严/ 监督/ 不力/ 企业/ 生产/ 水平/ 不高/ 技术设备/ 落后/ 职业/ 卫生/ 问题/ 严重/ 原因/ 更/ 重要/ 原因/ 企业/ 法制观念/ 淡薄/ 社会/ 责任/ 严重/ 缺位/ 缺乏/ 维护/ 职工/ 健康/ 强烈/ 意识/ 职工/ 合法权益/ 不能/ 得到/ 有效/ 保障/ 提高/ 企业/ 职业/ 卫生/ 工作/ 重视/ 卫生部/ 国家/ 安全/ 生产/ 监督管理/ 总局/ 中华全国总工会/ 24/ 日/ 京/ 评选/ 出/ 56/ 家/ 国家级/ 职业/ 卫生/ 工作/ 示范/ 企业/ 希望/ 企业/ 社会/ 推广/ 职业病/ 防治/ 经验/ 促使/ 企业/ 作好/ 职业/ 卫生/ 工作/ 保护/ 劳动者/ 健康
样本的topK(10)词:[('企业', 8), ('职业', 7), ('卫生', 6), ('尘肺病', 5), ('报告', 4), ('职业病', 4), ('卫生部', 4), ('24', 3), ('日', 3), ('中国', 3)]

如需要代码或数据进群753035545
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值