文本特征:特征提取(一)

原创 2018年04月16日 15:37:23

本文的内容主要来自于Quora上的一个问题,这里简单的做一下总结,感兴趣的可查看原帖:https://www.quora.com/What-is-the-best-feature-selection-method-on-text-mining

为了使用机器学习方法处理文本数据,需要找到适合的文本表示形式,对于传统机器学习方法而言,常用的一种表示方法是将文档转换为文档-词项矩阵(document term matrix)。具体就是将多篇文档转换为数据帧(dataframe),其中:
每个行标签代表一个文档(document),相当于一个实例或一个样本。
每个列标签代表一个词项(term),相当于属性或特征,每个单元格中的数据也就相当于特征值。

因此,如果选择文档-词项矩阵来表示文本数据,那么文本特征提取所要解决的主要问题就有以下两个:
1、提取哪些词项??即提取哪些特征??
2、选择哪种类型的特征值??

一 提取哪些词项(特征)?

根据待解决任务的不同,可以考虑的方法有以下几种:

  • 每个词都作为一个特征,可以当作一个baseline
  • 词干化(或者称为规范化,例如kick, kicked, kicking - 规范化为’kick’)
  • 去停词,去掉一些分类能力差的词(例如a,is)
  • 可以对一些文本打标签,例如four 可以被表示成 [four, numeric] ,以此表示这是一 类特殊形式的词语。
  • 一个词项不一定是一个单词,也可以是多个(bi-gram,tri-grams)
  • 可以同时进行一些语法/句法的处理,例如对词性进行标注
  • 命名实体可以进行标注

二 选择哪种类型的特征值??

常见的有:
- 词频
- tf-idf

SIGHAN-中文分词

  • 2015年09月22日 16:41
  • 6.87MB
  • 下载

文本特征提取

文本挖掘
  • lilil371324
  • lilil371324
  • 2016-06-07 13:54:44
  • 2542

文本中的特征提取与特征选择

特征提取Bag of Words 分词 计算每个词出现的次数 from sklearn.feature_extraction.text import CountVectorizer vectorize...
  • u013713117
  • u013713117
  • 2017-03-27 17:09:44
  • 3775

如何对文本提取特征

怎么样把字符串、文本转化为机器学习模型可处理的数值特征?
  • ybdesire
  • ybdesire
  • 2017-05-22 21:56:52
  • 852

文本特征:特征提取(一)

本文的内容主要来自于Quora上的一个问题,这里简单的做一下总结,感兴趣的可查看原帖:https://www.quora.com/What-is-the-best-feature-selection-...
  • a34434180
  • a34434180
  • 2018-04-16 15:37:23
  • 23

从文本抽取特征

从文本抽取特征Extracting features from text最近在做SIGHAN的task 2情感分类任务,在这样的二分类/三分类问题中,最重要的就是文本特征的提取和选择,也就是: 特征工...
  • ECNU_zwq
  • ECNU_zwq
  • 2015-04-11 17:44:03
  • 891

文本分类学习笔记(3)- 特征提取

#coding=utf-8 import os import nltk from nltk.corpus import wordnet as wn from numpy import * from m...
  • qjc937044867
  • qjc937044867
  • 2015-12-16 19:42:53
  • 1584

(7)文本挖掘(四)——特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。 文本数据的特征选择研究的重点就是用来衡量单词重...
  • Fighting_No1
  • Fighting_No1
  • 2016-03-29 10:06:47
  • 3742

Python开始机器学习(文本特征抽取与向量化)

文本特征抽取与向量化假设我们刚看完沈腾主演的《夏洛特烦恼》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这...
  • perfectmanman
  • perfectmanman
  • 2015-10-19 21:42:23
  • 1359

文本分类特征提取之Word2Vec

分类问题是人类所面临的一个非常重要且具有普遍意义的问题,我们生活中的很多问题归根到底都是分类问题。文本分类就是根据文本内容将其分到合适的类别,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信...
  • m0epNwstYk4
  • m0epNwstYk4
  • 2017-12-17 00:00:00
  • 2137
收藏助手
不良信息举报
您举报文章:文本特征:特征提取(一)
举报原因:
原因补充:

(最多只允许输入30个字)