特征选择

最新推荐文章于 2020-05-18 10:58:31 发布

Fifth quadrant

最新推荐文章于 2020-05-18 10:58:31 发布

阅读量1.1k

点赞数 1

分类专栏： Python实战自然语言处理

本文链接：https://blog.csdn.net/Junkichan/article/details/51883227

版权

Python实战同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

自然语言处理

8 篇文章 0 订阅

订阅专栏

文本特征提取的方法很多，如基于文本频率的特征提取法、信息增益法、卡方检验法和互信息法等。本文采用基于文本特征频率的提取法，计算文档频率DF，即计算出现某个term在同类文档中的DF。根据计算出来的DF值来选取能代表某类文档的特征词。

直接上代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能：
时间：
"""

import codecs
import os
import re


# 目录
base = "C:\\Users\\Administrator\\Desktop\\delstopwords3"

for j in range(1, 10):
    alltext = []
    allwords = []
    path = os.path.join(base, str(j))
    textnames = os.listdir(path)
    for name in textnames:
        temp = []
        f = codecs.open(os.path.join(path, name), "r")
        for line in f:
            try:
                temp.append(line.strip().decode("utf-8"))
            except:
                print u"某个词编码有问题..."
                continue
        alltext.append(temp)
        allwords += temp

    print u"文本个数：", len(alltext)
    print u"词汇个数：", len(allwords)
    print u"词汇种数：", len(set(allwords))

    word_df = []
    for word in set(allwords):
        count = 0
        for text in alltext:
            if word in text:
                count += 1
        word_df.append([word, str(count)])  # 存储形式[word，DF]

    # 输出，之所以不写入文本，是因为总有一些奇怪的字符会报错。。。
    word_df.sort(key=lambda x: int(x[1]), reverse=True)  # 词频从大到小排序
    f_df = codecs.open('%d.txt' % j, "a", encoding="utf-8")
    f_df.truncate()
    for item in word_df:
        f_df.write(item[0] + "\t" + item[1] + "\n")
    f_df.close()

print u"程序结束！"

Fifth quadrant

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
特征选择

文本特征提取的方法很多，如基于文本频率的特征提取法、信息增益法、卡方检验法和互信息法等。本文采用基于文本特征频率的提取法，计算文档频率DF，即计算出现某个term在同类文档中的DF。根据计算出来的DF值来选取能代表某类文档的特征词，本实验按DF从高到低，取每类文本前50个term作为特征词，共450个，去重后得到287个特征词。直接上代码：#!/usr/bin/env python# -
复制链接

扫一扫