NLP之高频词提取

最新推荐文章于 2024-04-07 18:27:01 发布

Happy丶lazy

最新推荐文章于 2024-04-07 18:27:01 发布

阅读量1.1k

点赞数

分类专栏： NLP 文章标签：高频词提取 NLP python

本文链接：https://blog.csdn.net/qq_39309652/article/details/109048978

版权

NLP 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

#jieba分词示例
def get_content(path):
    
    with open(path, 'r', encoding='gbk', errors='ignore') as f:
        content = ''
        for l in f:
            l = l.strip()
            content += l
        return content
def get_TF(words, topK=10):
    
    tf_dic = {}
    for w in words:
        tf_dic[w] = tf_dic.get(w, 0) + 1
    return sorted(tf_dic.items(), key = lambda x: x[1], reverse=True)[:topK]

def stop_words(path):
    with open(path,encoding='UTF-8') as f:
        return [l.strip() for l in f]
stop_words('data/stop_words.utf8')

#分词
def main():
    import glob
    import random
    import jieba
    
    files = glob.glob('data/news/C000013/*.txt')#查找符合特定规则的文件路径名
    corpus = [get_content(x) for x in files[:5]]
    
    
    sample_inx = random.randint(0, len(corpus))
    sample_inx = 3
    
    import jieba.posseg as psg
    
    split_words = [x for x in jieba.cut(corpus[sample_inx]) if x not in stop_words('./data/stop_words.utf8')]
    print('样本之一：'+corpus[sample_inx])
    print('样本分词效果：'+'/ '.join(split_words))
    print('样本的topK（10）词：'+str(get_TF(split_words)))
main()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.858 seconds.
Prefix dict has been built succesfully.


样本之一：中国卫生部官员24日说，截至2005年底，中国各地报告的尘肺病病人累计已超过60万例，职业病整体防治形势严峻。卫生部副部长陈啸宏在当日举行的“国家职业卫生示范企业授牌暨企业职业卫生交流大会”上说，中国各类急性职业中毒事故每年发生200多起，上千人中毒，直接经济损失达上百亿元。职业病病人总量大、发病率较高、经济损失大、影响恶劣。卫生部24日公布，2005年卫生部共收到全国30个省、自治区、直辖市（不包括西藏、港、澳、台）各类职业病报告12212例，其中尘肺病病例报告9173例，占75．11%。陈啸宏说，矽肺和煤工尘肺是中国最主要的尘肺病，且尘肺病发病工龄在缩短。去年报告的尘肺病病人中最短接尘时间不足三个月，平均发病年龄40．9岁，最小发病年龄20岁。陈啸宏表示，政府部门执法不严、监督不力，企业生产水平不高、技术设备落后等是职业卫生问题严重的原因。“但更重要的原因是有些企业法制观念淡薄，社会责任严重缺位，缺乏维护职工健康的强烈的意识，职工的合法权益不能得到有效的保障。”他说。为提高企业对职业卫生工作的重视，卫生部、国家安全生产监督管理总局和中华全国总工会24日在京评选出56家国家级职业卫生工作示范企业，希望这些企业为社会推广职业病防治经验，促使其他企业作好职业卫生工作，保护劳动者健康。
样本分词效果：中国卫生部/ 官员/ 24/ 日/ 2005/ 年底/ 中国/ 各地/ 报告/ 尘肺病/ 病人/ 累计/ 超过/ 60/ 万例/ 职业病/ 整体/ 防治/ 形势严峻/ 卫生部/ 副/ 部长/ 陈啸宏/ 当日/ 举行/ 国家/ 职业/ 卫生/ 示范/ 企业/ 授牌/ 暨/ 企业/ 职业/ 卫生/ 交流/ 大会/ 中国/ 各类/ 急性/ 职业/ 中毒/ 事故/ 每年/ 发生/ 200/ 多起/ 上千人/ 中毒/ 直接/ 经济损失/ 达上/ 百亿元/ 职业病/ 病人/ 总量/ 发病率/ 高/ 经济损失/ 影响/ 恶劣/ 卫生部/ 24/ 日/ 公布/ 2005/ 年/ 卫生部/ 共/ 收到/ 全国/ 30/ 个省/ 自治区/ 直辖市/ 包括/ 西藏/ 港/ 澳/ 台/ 各类/ 职业病/ 报告/ 12212/ 例/ 尘肺病/ 病例/ 报告/ 9173/ 例/ 占/ 75/ ．/ 11%/ 陈啸宏/ 矽肺/ 煤工/ 尘肺/ 中国/ 主要/ 尘肺病/ 尘肺病/ 发病/ 工龄/ 缩短/ 去年/ 报告/ 尘肺病/ 病人/ 中/ 短/ 接尘/ 时间/ 不足/ 三个/ 月/ 平均/ 发病/ 年龄/ 40/ ．/ 岁/ 最小/ 发病/ 年龄/ 20/ 岁/ 陈啸宏/ 表示/ 政府部门/ 执法不严/ 监督/ 不力/ 企业/ 生产/ 水平/ 不高/ 技术设备/ 落后/ 职业/ 卫生/ 问题/ 严重/ 原因/ 更/ 重要/ 原因/ 企业/ 法制观念/ 淡薄/ 社会/ 责任/ 严重/ 缺位/ 缺乏/ 维护/ 职工/ 健康/ 强烈/ 意识/ 职工/ 合法权益/ 不能/ 得到/ 有效/ 保障/ 提高/ 企业/ 职业/ 卫生/ 工作/ 重视/ 卫生部/ 国家/ 安全/ 生产/ 监督管理/ 总局/ 中华全国总工会/ 24/ 日/ 京/ 评选/ 出/ 56/ 家/ 国家级/ 职业/ 卫生/ 工作/ 示范/ 企业/ 希望/ 企业/ 社会/ 推广/ 职业病/ 防治/ 经验/ 促使/ 企业/ 作好/ 职业/ 卫生/ 工作/ 保护/ 劳动者/ 健康
样本的topK（10）词：[('企业', 8), ('职业', 7), ('卫生', 6), ('尘肺病', 5), ('报告', 4), ('职业病', 4), ('卫生部', 4), ('24', 3), ('日', 3), ('中国', 3)]

如需要代码或数据进群753035545

Happy丶lazy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP之高频词提取

#jieba分词示例def get_content(path): with open(path, 'r', encoding='gbk', errors='ignore') as f: content = '' for l in f: l = l.strip() content += l return contentdef get_TF(words, topK=10): t
复制链接

扫一扫