python count用法_在python中使用CountVectorizer删除数字、标点和词干

我试图用python中的CountVectorizer清理语料库。我写了下面的代码,但我认为标记化和stem_标记函数不起作用,因为我没有得到所需的特性,一些特殊字符被插入到特性中。在import pandas as pd

from sklearn.naive_bayes import MultinomialNB

from sklearn.feature_extraction.text import CountVectorizer

import sklearn

import pickle

import os

import string

import sklearn.feature_extraction.text

import pandas

import nltk

from nltk.stem.porter import PorterStemmer

data = pd.read_csv("Data.csv",encoding='cp1252')

description = data[['Description','Group']]

#splitting data sets into train and test using Sklearn

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(description.Description, description.Group, random_state=1)

stemmer = PorterStemmer()

def stem_tokens(tokens, stemmer):

stemmed = []

for item in tokens:

stemmed.append(stemmer.stem(item))

return stemmed

def tokenize(text):

tokens = nltk.word_tokenize(text)

tokens = [i for i in tokens if i not in string.punctuation]

stems = stem_tokens(tokens, stemmer)

return stems

##vect = CountVectorizer(tokenizer=tokenize, stop_words='english',lowercase=True, ngram_range=(1,2))

vect = CountVectorizer(stop_words='english',lowercase=True, ngram_range=(1,2))

train_dtm = vect.fit_transform(X_train.astype('U'))

test_dtm = vect.transform(X_test.astype('U'))

是因为我使用的是ngram_range=(1,2)。

有谁能帮我知道如何使用Python中的countvector删除数字、标点符号和词干。在

请指教。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值