对爬取到的微博进行数据处理，jieba分词去停词，tf-idf关键词提取，LDA ：主题模型

最新推荐文章于 2022-06-16 17:08:48 发布

自然语言处理玄学实践者

最新推荐文章于 2022-06-16 17:08:48 发布

阅读量4.4k

点赞数 6

分类专栏： nlp自然语言处理

本文链接：https://blog.csdn.net/qq_34519470/article/details/104854284

版权

该博客介绍了如何处理从微博爬取的数据，涉及对CSV文件中某列内容的提取，使用jieba进行分词，去除停用词，然后通过TF-IDF算法提取关键词。最后，应用LDA进行主题建模，为后续分析做好准备。

摘要由CSDN通过智能技术生成

主要实现在csv文件里对某一列进行提取，对其进行分词，去停用词，使用TF-IDF ：提取关键词等操作，并把处理好的数据放入到csv文件中去。方便接下来的操作。

# -*- coding:utf-8 -*-
import jieba
import numpy as np
import pandas as pd
fileee="D:\PycharmProjects2020\qingganfenlei\data\weibo1.csv"
# 读取txt列
df = pd.read_csv(fileee,usecols=['name1','txt'],encoding='gbk')
# print(df)
df.dropna(axis=0,subset = ["txt"])   # 丢弃txt这列中有缺失值的行
# print(df.head(3))
# print(df.shape)

# 提取txt这一列进行结巴分词，然后把分号的放进content_S这个列表
txt = df.txt.values.tolist()
name=df.name1.values.tolist()
# print (txt[1])
content_S = []
for line in txt:
    current_segment = jieba.lcut(line)#直接生成一列jieba.lcut 直接生成的就是一个list
    if len(current_segment) > 1 and current_segment != '\r\n': #换行符
        content_S.append(current_segment)
# print(content_S[0])
#把content_S做成一列 起名字
df_content=pd.DataFrame({
   'content_S':content_S})

# print(df_content.head())
#加载停用词表
stopwords=pd.read_csv("data/结巴stopwords.txt", index_col

最低0.47元/天解锁文章

自然语言处理玄学实践者

关注

6
点赞
踩
76

收藏

觉得还不错? 一键收藏
1
评论
对爬取到的微博进行数据处理，jieba分词去停词，tf-idf关键词提取，LDA ：主题模型

主要实现在csv文件里对某一列进行提取，对其进行分词，去停用词，使用TF-IDF ：提取关键词等操作，并把处理好的数据放入到csv文件中去。方便接下来的操作。# -*- coding:utf-8 -*-import jiebaimport numpy as npimport pandas as pdfileee="D:\PycharmProjects2020\qingganfenlei\...
复制链接

扫一扫

专栏目录