python count用法_在python中使用CountVectorizer删除数字、标点和词干

最新推荐文章于 2021-06-04 14:16:16 发布

weixin_39753857

最新推荐文章于 2021-06-04 14:16:16 发布

阅读量528

点赞数

文章标签： python count用法

我试图用python中的CountVectorizer清理语料库。我写了下面的代码，但我认为标记化和stem_标记函数不起作用，因为我没有得到所需的特性，一些特殊字符被插入到特性中。在import pandas as pd

from sklearn.naive_bayes import MultinomialNB

from sklearn.feature_extraction.text import CountVectorizer

import sklearn

import pickle

import os

import string

import sklearn.feature_extraction.text

import pandas

import nltk

from nltk.stem.porter import PorterStemmer

data = pd.read_csv("Data.csv",encoding='cp1252')

description = data[['Description','Group']]

#splitting data sets into train and test using Sklearn

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(description.Description, description.Group, random_state=1)

stemmer = PorterStemmer()

def stem_tokens(tokens, stemmer):

stemmed = []

for item in tokens:

stemmed.append(stemmer.stem(item))

return stemmed

def tokenize(text):

tokens = nltk.word_tokenize(text)

tokens = [i for i in tokens if i not in string.punctuation]

stems = stem_tokens(tokens, stemmer)

return stems

##vect = CountVectorizer(tokenizer=tokenize, stop_words='english',lowercase=True, ngram_range=(1,2))

vect = CountVectorizer(stop_words='english',lowercase=True, ngram_range=(1,2))

train_dtm = vect.fit_transform(X_train.astype('U'))

test_dtm = vect.transform(X_test.astype('U'))

是因为我使用的是ngram_range=（1,2）。

有谁能帮我知道如何使用Python中的countvector删除数字、标点符号和词干。在

请指教。在

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39753857

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用 Python 进行自然语言处理第 3 部分：使用 Python 进行文本预处理

gongdiwudu的专栏

01-31

1961

文本预处理涉及许多将文本转换为干净格式的任务，以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。

【ChatBot开发笔记】对语料库进行数据清洗、中文分词，建立训练词向量模型

weixin_44524843的博客

04-17

2584

目录简述数据清洗去除关键字去除重复语句中文分词使用gensim训练词向量模型word2vec的训练思路使用gensim训练词向量模型结语简述接前述使用scrapy爬取文件建立聊天语料库一文，在对文件初步清洗之后。由于文本来源的特殊性，需要对其中的特殊关键词进行过滤，以及其他数据清洗操作。这篇文章将在前文基础上，进行数据清洗，中文分词，及word2vec操作。作为中期检测前的最后一篇记录，希望能给大家一点小小的帮助。数据清洗由于是对字幕文件的数据清洗，所以除去html标签，去转义，去除特殊符号等操作外

参与评论您还未登录，请先登录后发表或查看评论

python vectorize_bigrams python的CountVectorize词汇规范

weixin_35517357的博客

02-09

你的问题是因为你的字典2是基于元组的。这是一个极简主义的例子，它表明当bigram是字符串时，这是有效的。如果要分别处理每个文件，可以将其传递给矢量器.transform()作为列表。在from sklearn.feature_extraction.text import CountVectorizerDoc1 = 'Wimbledon is one of the four Grand Slam ...

count在python中怎么定义_在Python中组合CountVectorizer和ngrams

weixin_39582724的博客

11-26

316

您正在向向量器传递一个列表序列，这就是您接收AttributeError的原因。你应该传递字符串而不是字符串。来自CountVectorizerdocumentation：fit_transform(raw_documents, y=None)Learn the vocabulary dictionary and return term-document matrix.This is equiva...

sklearn CountVectorizer 单字

xxzhix的博客

09-13

1979

在使用python sklearn.feature_extraction.text的CountVectorizer时，发现会自动剔除掉单字的中文和只有一个字母的英文。 #CountVectorizer convert a collection of text documents to a matrix of token counts from sklearn.feature_extractio...

如何对groupby对象使用countvectorize方法（如何对多列groupby对象提取计数特征）

yyhhlancelot的博客

02-25

301

众所周知，countvectorize是简单地计算出现频率。那在一个groupby对象中，如何针对每个类计算频率，我google了一个上午没有找到特定的现象以及API，故将自己的做法写下这篇博客记录。现象举例： df中的category_1只有Y和N两种，而想要计算出每个id分别对应的Y和N的数量，并生成新的特征与原始数据进行合并。 >>> df.tail(20...

CountVectorizer详解示例

fengshucui的博客

06-04

2740

from sklearn.feature_extraction.text import CountVectorizer CountVectorizer可以将文本文档集合转换为token计数矩阵。(token可以理解成词) 此实现通过使用scipy.sparse.csr_matrix产生了计数的稀疏表示。如果不提供一个先验字典，并且不使用进行某种特征选择的分析器，那么特征的数量将与通过分析数据得到的词汇表的大小一致。首先定义一份语料 corpus = [ ‘This is the first do

python基础教程：在Python中使用NLTK库实现对词干的提取的教程

python爬虫程序学习教程

04-16

2465

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府这篇文章主要介绍了在Python中使用NLTK库实现对词干的提取的教程,其中还用到了Pandas和IPython,需要的朋友可以参考下什么是词干提取？在语言形态学和信息检索里，词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根，词干并不需要完全相同；相关的词映射到同一个词干一般能得到满意的结果，即...

我应该如何使用 Python 的 NLTK 库进行词频统计

最新发布

06-06

### 如何使用Python的NLTK库进行词频统计 #### 一、引言自然语言处理（NLP）是计算机科学领域的一个重要分支，旨在帮助机器理解人类语言。词频统计是NLP中最基础也是最常用的技术之一，通过统计文本中各个单词出现...

python 去重排序_python中sorted()和set()去重，排序

weixin_39883670的博客

12-09

872

前言在看一个聊天机器人的神经网络模型训练前准备训练数据，需要对训练材料做处理(转化成张量)需要先提炼词干，然后对词干做去重和排序words= sorted(list(set(words)))对这三个方法做一下整理：1.set()语法：set([iterable])参数：可迭代对象(可选)，a sequence (string, tuple, etc.) or collection (list, s...

python结巴分词去掉停用词、标点符号、虚词_NLP自然语言处理入门-- 文本预处理Pre-processing...

weixin_34696006的博客

02-04

1万+

引言自然语言处理NLP(nature language processing)，顾名思义，就是使用计算机对语言文字进行处理的相关技术以及应用。在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中、英文文本挖掘的常用的NLP的文本预处技术做一个总结。文章内容主要按下图流程讲解： 1.中英文文本预处理的特点中英文的文本预处理大体流程如上图，但是还是有...

python基础五：元组的index，del，count方法及字典的修改、增加、删除（del、clear）、遍历（keys、values、items）

Chenftli的博客

04-16

6438

元组：index、del、count的方法。index的用法：用来查找元组中元素对应的下标。格式：元组变量名.index(查找的元素)实例： del的用法：用来删除整个元组。格式：del 元组变量名实例： count的用法：用来统计元组中指定元素的个数。格式：元素变量名.count(查找的元素)实例：字典：查找、修改、增加、删除、遍历。查找用法：直接...

Python训练文本情感分析模型

S_Masons的博客

08-22

2万+

最近闲来无事，看了王树义老师的一篇文章《如何用Python和机器学习训练中文文本情感分类模型》，跟着步骤做了一个demo，此demo是爬取了美团用户的评论，对评论进行情感分析，收获很大，特此做下了笔记。首先导入库 import pandas as pd import numpy as np from pandas import DataFrame, Series 读取评论数据，数据在 ...

sklearn——CountVectorizer详解

热门推荐

欢迎光临啊噗不是阿婆主的酒馆

09-02

15万+

参考如下链接整理： http://stackoverflow.com/questions/27488446/scikit-learn-countvectorizer http://www.itkeyword.com/doc/4813494854317445586/TfidfVectorizer-sklearn-CountVectorizer 这个链接写的很棒,主要参考他的： https:/...

CountVectorizer()参数详解

qq_33837905的博客

07-23

4893

CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, ma

机器学习之朴素贝叶斯（四）用CountVectorizer（平权统计）的文本分类

繁华三千东流水不舍昼夜的博客

08-14

1367

这里使用的是原始的词频统计，所有词的权重是相等的。

鬼吹灯文本挖掘1：jieba分词和CountVectorizer向量化

zhuzuwei的博客

06-21

9035

1. 数据预处理import pandas as pd import numpy as np import jieba import re # 1. 读取斗破苍穹文档: 共33章 gcd1_df = pd.read_csv('G:\\自学笔记\\学习笔记：Python数据分析--玩转文本挖掘\\PythonData\\鬼吹灯之精绝古城txt全本精校版.txt',\ ...

CountVectorizer与TfidfVectorizer的区别

AI浩

12-02

2268

CountVectorizer+TfidfTransformer组合使用 CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词，通过toarray()可看到词频矩阵的结果。 TfidfTransformer用于统计vectorizer中每个词语的TFIDF值。 TfidfVectorizer 将原始文档的集合转化为tf-idf特性的矩阵，相当于CountVectoriz

python sklearn包中的CountVectorizer函数

bingbingbling的博客

07-11

4641

使用前需要导入sklearn包 from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer CountVectorize CountVectorizer是特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率，可用于密码体制识别的特征提取。 CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词出现的频数。参数：

python使用nltk的词干还原和词形归并处理文本

05-23

Python中可以使用Natural Language Toolkit (NLTK)来对文本进行词干还原和词形归并处理。下面是一个简单的代码示例： ```python import nltk from nltk.stem import WordNetLemmatizer, PorterStemmer # 定义一个...