LSTM微博评论情绪识别二分类项目jieba分词遇到的问题

秀秀更健康

已于 2024-05-12 09:34:18 修改

阅读量783

点赞数 26

分类专栏：机器学习文章标签：机器学习神经网络自然语言处理

于 2024-05-12 09:32:18 首次发布

本文链接：https://blog.csdn.net/2301_76989860/article/details/138742678

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

LSTM微博评论情绪识别二分类项目：

提示：这里简述项目相关背景：

LSTM微博评论情绪识别二分类项目是对.csv文件的数据集处理，首先要将评论进行清洗，分词，去掉停用词等处理。

无法正确分词----jieba分词库

提示：这里描述项目中遇到的问题：
问题1：对于“不开心”它分成了“开心”，无法识别出否定的“不”，经过处理后发现是停用表中含有“不”，所以我去掉了停用表里面的“不”，“不是”，“不要”等词，以及表示嘿嘿，哈哈等情绪的词汇。问题表现它可以识别【不】【开心】却无法对后续的情绪处理带来好处。
问题2：无法识别断句，比如：微信（微信号：XXXXXX），它将微【微信微】和【信号】分在了一起，后来我发现是我提前将所有的标点符号再分词前给删掉了，现在分成了【微信】【微信】【号】但是现在的问题是：我将一些不必要的【@小小】给删除后，再分的词，但是发现了槽点，【@小小】前后两个没有关系的句子中结合出了一个单词。我无语了。

问题现象：
原始句子：//@刺客小A: 好好的不行吗嘛！一定要剧透，自己知道就算了，还转发！唉伊！//@璐璐小仙: 剧透了，剧透了。姚双喜再恶心点。人品再差一点，每次都要哭到鼻涕全都出来。看到他就想快近。还是三顺可爱，好好的不行嘛~[太开心]

分词后：好好不行一定要剧透知道转发伊剧透剧透姚双喜恶心点人品差一点每次哭鼻涕全都看到想快近三顺可爱好好不行太开心

原始句子：回复@我要你做回自己:关注锦庭火锅道官方微信（微信号：zhongguohuoguodao），发送自己的美照到公共账号：麒麟锦庭火锅道，我们会专门为大家定制专属于您的电子VIP会员卡，享受全单8.8折的优惠哦。 //@我要你做回自己:怎么玩 //@麒麟锦庭火锅道:[亲亲][亲亲]谢谢大家

分词后：回复关注锦庭火锅道官方 微信微信号 发送美照公共账号麒麟锦庭火锅道会专门定制专属于电子会员卡享受全单折优惠玩亲亲亲亲谢谢

在这里插入图片描述

原因分析：

提示：这里填写问题的分析：
问题1：我在分词字典中加入了【不开心】，【嘿嘿】，【哈哈】等表示情绪的词语，因为我发现就算我可以得到分词结果【不】【开心】，模型还是无法识别出【开心】【不开心】是两个相对的意思，它把【开心】作为关键词，这样积极和消极那个特征中含有的【开心】多，模型就会把它分为那个情绪标签。所以我直接加入【不开心】。但是这不是长久的发展，因为【不难受】等这样的情况太多了。
问题2：我发现像我处理掉的【@小小】【https://editor.csdn.net/md?not_checkout=1&spm=1015.2103.3001.8066&articleId=138742678】【XXXXXXXX.qq.com】等无用的信息和标点符号一样有停顿的作用。

解决方案：

提示：这里填写该问题的具体解决方案：

def ONE_comment_process(content):
    content = re.sub(r'(https?|ftp|file|www\.)[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '[URL]', content)
    content = re.sub(r'[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+[\.][a-zA-Z0-9_-]+', '[email]', content)
    content = re.sub(r'(\/\/){0,1}@.*?(：|:| |\n)', '[FORWARD]', content)
    content = re.sub(r'(\d+\.\d+)|(\d+)', '[number]', content)
    content = re.sub(r'[\.。…]{2,}', '。', content)
    content = re.sub(r'~{2,}', '~', content)
    content = re.sub(r'[!！]{2,}', '!', content)
    content = re.sub(r'[？?]{2,}', '?', content)
    content = re.sub(r'//', ' ', content)
    content = re.sub(r'["“”\'‘’]', '', content)
    content = re.sub(r'@.*?(,| )', '[username]', content)
    content = re.sub(r'@\S+', '[username]', content)
    # 使用 jieba 进行分词
    jieba.load_userdict("jieba.txt") #增加词典
    segments = jieba.cut(content, cut_all=False)  #cut_all=False 表示精确模式
    processed_content = []
    i = 1
    for segment in segments:
        if re.match(r'^\s+$', segment):  #过滤掉纯空格
            continue
        processed_content.append(segment.strip())
        # 引用停用表stop_words
        with open("cn_stopwords.txt", "r", encoding="utf-8") as lines:
            stop_words = []
            for line in lines:
                stop_word = line.strip()  # 使用strip()方法删除每行两端的空白字符（包括换行符）
                if stop_word:  # 如果停用词不为空，则添加到列表中
                    stop_words.append(stop_word)
        #特色的停用词，用户自定义添加
        ignore_chars = ["/",  "~", "～", "-", "」", "「", "@", "【", "】", "#", ":", "[", "]", "\"", "＂", "*",
                        "(", ")", "!", ".", ",", "`", "'", '，']
        words_list = []
        for word in processed_content:
            if not word:
                continue
            if word in ignore_chars:
                continue
            if word not in stop_words:
                words_list.append(word)
    return words_list