朴素贝叶斯进行文本分类——python

本文分享了如何使用朴素贝叶斯进行文本分类,以天猫商品评论为例,涉及数据爬取、人工打标签、数据处理、计算概率及分类测试。通过示例展示了分类结果。
摘要由CSDN通过智能技术生成

最近由于公司的一个CASE,用朴素贝叶斯在做一个文本分类。所以拿出来和大家分享一下。
(以下数据:来源于网上天猫商品评论)
1. 爬虫
要进行文本分类,首先要有文本,我在网上爬了点公共的数据,天猫上的商品—某品牌羽绒服的评论数据。
爬虫不是这篇的重点,感兴趣的小伙伴们可以去简书上找找,有很多爬虫的小栗子。
接下来就默认有商品评论数据啦

  1. 打标签
    人工打标签,对数据进行分类。对于羽绒服的评论,描述包括“暖和”,“质量好”,“不错”等字眼,均标记为1,其他如“太差了”,“不要买”等字眼,均标记为0.

  2. 朴素贝叶斯分类

    第一步,数据处理
    加载数据,利用jieba进行分词,并设置停用词,去掉非汉字

import numpy as np
import jieba
def loadDataSet():
    file=open('train_message.csv').read().strip().split('\n')
    postingList_1=[]
    for i in range(len(file)):
        result=[]
        seg_list = jieba.cut(file[i])
        for w in seg_list:
            result.append(w)
        postingList_1.append(result)

    stopwords =[]
    postingList  = []

    st = open('stopwords.csv').read().strip().split('\n')
    for line in st:
        line = line.strip()
        stopwords.append(line)

    for singletext_result in postingList_1:
        delstopwords_singletx
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值