python数据分析之利用多种机器学习方法实现文本分类、情感预测_python文本分析

本文介绍了如何使用Python进行文本数据分析,包括中文分词、情感打分、TF-IDF向量化和机器学习分类。通过Jieba进行分词、SnownLP进行情感分析,并使用TfidfVectorizer转换为向量。接着,利用8种机器学习模型对文本数据进行情感分类,如Logistic Regression、Naive Bayes等。
摘要由CSDN通过智能技术生成

输出结果:

所有的网页已经下载到了本地,开始筛选信息。。。。
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成

eq?%5Cvdots

(2)部分数据展示
1 好好画画啦
2 求各专业大佬
3 欢迎报考北邮
4 话费充值需要dd
5 兼职有没有来的
6 在校大学生一枚
7 滴滴,喜欢的看过来
8 大学生进!!!
9 有什么快速挣钱的好方法?
10 大学,要挣米,来,???带一手
11 大学宿舍限电是普遍现象吗,一般限多少瓦
12 你们认为大学生打工,什么工作最好
13 家人们该不该
14 兼职介绍,有没有
15 稳稳的一天
16 创建一个资源共享群,亲们留下你们的微信,我拉你们进群
17 假期的小工作
18 寻说明书系统说明,撰写选手
19 加QQ!!!…
20 有兼职群吗

2、数据预处理

(1)中文分词

爬取到的评论,使用Python爬取了中文数据集之后,首先需要对数据集进行中文分词处理。由于英文中的词与词之间是采用空格关联的,按照空格可以直接划分词组,所以不需要进行分词处理,而中文汉字之间是紧密相连的,并且存在语义,词与词之间没有明显的分隔点,所以需要借助中文分词技术将语料中的句子按空格分割,变成一段段词序列。使用中文分词技术及Jiaba中文分词工具。

分词后的评论并不是所有的词都与文档内容相关,往往存在一些表意能力很差的辅助性词语,比如中文词组“我们”、“的”、“可以”等,英文词汇“a”、“the”等。这类词在自然语言处理或数据挖掘中被称为停用词(Stop Words),它们是需要进行过滤的。通常借用停用词表或停用词字典进行过滤,这里所用的停用词表可以在文末进行获取。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import networkx as nx

plt.rcParams[‘font.sans-serif’] = [‘KaiTi’]  #指定默认字体 SimHei黑体

plt.rcParams[‘axes.unicode_minus’] = False   #解决保存图像是负号’

import jieba

stop_list  = pd.read_csv(“停用词.txt”,index_col=False,quoting=3,sep=“\t”,names=[‘stopword’], encoding=‘utf-8’)

#Jieba分词函数

def txt_cut(juzi):

lis=[w for w in jieba.lcut(juzi) if w not in stop_list.values]

return (" ").join(lis)

df=pd.read_csv(‘E:/工作/硕士/data.csv’,encoding=“ANSI”)

df[‘cutword’]=df[‘PL’].astype(‘str’).apply(txt_cut)

df=df[[‘PL’,‘cutword’]]

df

输出结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值