python如何分类数据_python – 如何训练大型数据集进行分类

最新推荐文章于 2024-06-30 18:41:59 发布

weixin_39787628

最新推荐文章于 2024-06-30 18:41:59 发布

阅读量355

点赞数

文章标签： python如何分类数据

根据对特征提取的精心提出,您可以使用scikit库中的tfidvectorizer从推文中提取重要的单词.使用默认配置,再加上一个简单的LogisticRegression,它给我0.8精度.希望有所帮助.

以下是如何使用它来解决问题的示例：

train_df_raw = pd.read_csv('train.csv',header=None, names=['label','tweet'])

test_df_raw = pd.read_csv('test.csv',header=None, names=['label','tweet'])

train_df_raw = train_df_raw[train_df_raw['tweet'].notnull()]

test_df_raw = test_df_raw[test_df_raw['tweet'].notnull()]

test_df_raw = test_df_raw[test_df_raw['label']!=2]

y_train = [x if x==0 else 1 for x in train_df_raw['label'].tolist()]

y_test = [x if x==0 else 1 for x in test_df_raw['label'].tolist()]

X_train = train_df_raw['tweet'].tolist()

X_test = test_df_raw['tweet'].tolist()

print('At vectorizer')

vectorizer = TfidfVectorizer()

X_train = vectorizer.fit_transform(X_train)

print('At vectorizer for test data')

X_test = vectorizer.transform(X_test)

print('at Classifier')

classifier = LogisticRegression()

classifier.fit(X_train, y_train)

predictions = classifier.predict(X_test)

print 'Accuracy:', accuracy_score(y_test, predictions)

confusion_matrix = confusion_matrix(y_test, predictions)

print(confusion_matrix)

Accuracy: 0.8

[[135 42]

[ 30 153]]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39787628

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 数据训练_python训练数据集

weixin_39594296的博客

11-29

2314

如何用python制作自己的训练数据集input: "data"input_shape { dim: 1 dim: 3 dim: 384 //这个就是图片预处理时就先将高度缩放到384 dim: 1248 //这个就是图片预处理时就先将宽度缩放到1248 }python中什么是测试数据和训练数据python线性回归中在划分数据集时，为什么要划分测试数据和训练数据比如当数据量特别大的时候，有几千几万...

python建模视频_手把手带你构建视频分类模型（附Python演练）

weixin_36182372的博客

01-29

643

原标题：手把手带你构建视频分类模型(附Python演练)概述了解如何使用计算机视觉和深度学习技术处理视频数据我们将在Python中构建自己的视频分类模型一个非常实用的视频分类教程，准备好Jupyter Notebook介绍我们可以使用计算机视觉和深度学习做很多事情，例如检测图像中的对象，对这些对象进行分类，从电影海报中生成标签。这一次，我决定将注意力转向计算机视觉中不太引人注目的方面-视频!我们正...

参与评论您还未登录，请先登录后发表或查看评论

python训练数据集_python – 如何训练大型数据集进行分类

weixin_39746229的博客

11-24

413

我有一个1600000推文的训练数据集.我该如何训练这类巨大的数据.我尝试过使用nltk.NaiveBayesClassifier.如果我跑步,训练需要5天以上.def extract_features(tweet):tweet_words = set(tweet)features = {}for word in featureList:features['contains(%s)' % word...

python 划分数据集

SiuooooBoom的博客

08-25

9429

python 划分数据集深度学习数据集准备工作划分比例的问题代码深度学习数据集 在进行深度学习的数据训练之前，总是要先进行 数据集的划分，将数据集划分为训练集、测试集和验证集，即分为train、test和val三个文件夹。在网上看了一些数据集划分的代码，90%是用不了，很多都是只划分了图像文件，根本不划分相应的标注文件，于是自己写了一个简单的脚本，同时将图片和标注都对应划分好。准备工作在进行数据集划分之前，首先先建立好相应的文件夹，分为train、test和val三个文件。每个文件夹中，又包含ima

python的标准数据类型

qq_37253540的博客

07-02

216

Python3 中有六个标准的数据类型：Number（数字）String（字符串）List（列表）Tuple（元组）Set（集合）Dictionary（字典）Python3 的六个标准数据类型中：不可变数据（3 个）：Number（数字）、String（字符串）、Tuple（元组）；可变数据（3 个）：List（列表）、Dictionary（字典）、Set（集合）。...

python数据分类_python数据分类

weixin_39527879的博客

11-21

550

python 数据类型可以分为两大类 : 数字类型和容器类型数字类型(Number)可分为四类:1.int : 整数类型 ( 正整数 0 负整数 )2.float: 浮点数类型 ( 1普通小数 2科学计数法表示的小数例:a = 3e-5 #3e-05 )3.bool: 布尔值类型 ( 真True 和假False )4.complex: 复数类型 ( 声明复数...

dask 并行读取csv_Dask –使用Python处理大型CSV文件的更好方法

cumei1658的博客

07-10

3265

dask 并行读取csvIn a recent post titled Working with Large CSV files in Python, I shared an approach I use when I have very large CSV files (and other file types) that are too large to load into memory. W...

python中离散数据插到格点_python – 根据每个点的最近邻居距离,在最佳网格上插入非结构化的X,Y,Z数据...

weixin_39914243的博客

12-19

474

在我使用的show final solution的答案之后编辑了这个问题我有来自不同来源的非结构化2D数据集,例如：这些数据集是3 numpy.ndarray(X,Y坐标和Z值).我的最终目标是在网格上插入这些数据以转换为图像/矩阵.所以,我需要找到插入这些数据的“最佳网格”.而且,为此,我需要在该网格的像素之间找到最佳的X和Y步长.根据点之间的欧氏距离确定步骤：使用每个点与其最近邻居之间的欧几...

第一章 python大数据分析概述

qq_38022326的博客

01-13

5472

第一章 python大数据分析概述本章内容 1 . 理解数据 2 . 认识数据分析 3 . 数据分析工具Python 4 . 重要的Python数据分析类库 5 . 集成开发环境和文本编辑器 6 . 使用Jupyter Notebook 1.1 Python数据分析概述1 理解数据需要分析的数据一般是结构化的、半结构化的、非结构化的数据集合。大部分数据集多能被转化为更加适合分析和建模的结构化形式。主要的结构化数据有 : 1 . 表格型数据，其中各列可能是不同的类型（字符串，数值，日期等），比

python遍历queryset_python中增加一列数据有效使用Django的QuerySets

weixin_39922394的博客

12-23

530

《python中增加一列数据有效使用Django的QuerySets》总结了关于Python基础教程教程，对于我们来002pc.com确实能学到不少知识。对象关系映射 (ORM) 使得与SQL数据库交互更为简单，不过也被认为效率不高，比原始的SQL要慢。要有效的使用ORM，意味着需要多少要明白它是如何查询数据库的。本文我将重点介绍如何有效使用 Django ORM系统访问中到大型的数据集。Djan...

机器学习——minist数据集分类python实现

09-10

机器学习——minist数据集分类python实现，亲测有效。

bayes实现水果分类（python，包含数据集）

09-25

使用bayes算法实现水果分类，附件中包含数据集 #根据测试数据进行提取数据特征，分类，求方差，均值，然后对每类进行特征值提取

二分类数据集

01-13

目标检测算法数据集。。。。。。。。。。。。。。。。

python数据类型分类说明

Winter_Sun灬的博客

09-21

1139

python 数据类型说明

python数据分类_python 数据分类汇总

weixin_39870155的博客

11-21

393

STEP1:#读取数据：import pandas as pdinputfile_1 = "F:\\大论文实验\\数据处理\\贫困人口数据_2015.xlsx"data1 = pd.read_excel(inputfile_1)#数据分组：groupbydata1_1 = data1.groupby('贫困户编号')['文化程度'].sum()#根据贫困户编号进行分类，计算每一户的文化程度的和#利...

Python数据分类实现过程

bus_lupe的博客

10-18

1232

首先明确需求并对数据进行观察其次，确定算法确定步骤编程实现常见的分类算法 KNN算法贝克斯方法决策树人工神经网络支持向量机（SVM） KNN算法实现步骤处理数据数据向量化计算欧几里得距离根据距离进行分类手写体数字识别训练数据测试数据 pillow模块处理图片 ...

干货python划分数据集

qq_42037273的博客

06-09

3188

*coding: utf-8 * Author --LiMing– import os import random import shutil import time def copyFile(fileDir, class_name): image_list = os.listdir(fileDir) # 获取图片的原始路径,列出子文件夹 image_number = len(image_list) train_number = int(image_number * train_rate) train_sa

机器学习python下数据分类方法

qq_40242160的博客

04-01

2265

数据集分为训练集合测试集，分类方法包括留出法： Python环境下第三方软件库，Scikit-Learn中的函数 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = XXX, random_state = 0) X: 表示要进行处理的原始数据 y：表示数据对应的分类结果 XXX: 测试数据集的比例，0~1，例如：0.3，,X中的30%的数据用于测试。 X_train，y_train：用于训练的原始数据，..

python数据分析——数据分类汇总与统计