特征选择之词频

博客探讨了在文本分析中使用词频作为特征选择的方法。介绍了Vector Space Model的概念,并以sogou实验室的语料数据为例,展示了词频如何反映文档主题。同时指出词频方法的局限,如不相关词汇的出现,并提出通过去除高频停用词来优化特征选择,以提高主题区分度。
摘要由CSDN通过智能技术生成

 ###############国庆基本一个人渡过,无聊研究下特征算则算法,以备后用###############


    不管对文档分类还是聚类,特征化的表述一个文档,让计算机理解这篇文档说的是什么都是最重要的一个任务,那么用什么东西去表达这样一个非结构化的文档最为合适呢? Gerard Salton 在1969年提出的Vector Space Model-空间向量模型得到了广泛的应用,这是一个用来表示文本文件的代数模型,向量中每一维都是代表一个词的信息。 那么在表达一个文本的时候选择那些词? 下面介绍一个最简单的筛选方法——词频。

     词频——一个词在一个文档中出现的次数,这是一个很简单但是又非常实用的东西,比如常常能从一个嘴里听到基金,股票,交易,大盘,涨幅,加仓等这些词,那么基本可以断定这个人是一个搞金融的人,或者这个人是一个股票研究爱好者。所以直观的表达一个文本可以通过各个词在文章中出现的频次。

      以sogou实验室提供的语料数据为例,选取了金融,IT产品,体育,娱乐,股票这五类的文档,每种类型的文档数如下:

20026   business.sohu.com

144435  product.it.sohu.com

36964   sports.sohu.com

32132   stock.sohu.com

1208

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值