NLP基础知识之Excel读写、关键词提取、主题模型LDA
本文参照bilibili上课程《用CNN实现文本分类》。
一、用openpyxl 方法写Excel
首先导入包:from openpyxl import Workbook;
from openpyxl import Workbook
if __name__ == "__main__":
# 数据
liebioa=[
["A","B"],
[1,2],
[3,4],
[5,6],
]
#创建一个工作簿
wb = Workbook()
# 新建一个工作表,可以指定索引,适当安排其在工作簿中的位置
sheet = wb.create_sheet('Data', index=0)
# 指定sheet名
sheet.title = 'ceshi1'
for row in liebioa:
sheet.append(row)
wb.save('C:/Users/miao/Desktop/Write_test.xlsx')
由于append()函数只能按行写入。如果我们想按列写入呢。append能实现需求么?如果把上面的列表嵌套看作矩阵。只要将矩阵转置就可以了。使用zip()函数可以实现,不过内部的列表变成了元组就是了。都是可迭代对象,不影响。具体:list(zip(*需要转置的list))
liebioa=[
["A","B"],
[1,2],
[3,4],
[5,6],
]
wb = Workbook()
sheet = wb.create_sheet('Data', index=1)
sheet.title = 'ceshi2'
liebioa2=list(zip(*liebioa))
for row in liebioa2:
sheet.append(row)
wb.save('C:/Users/miao/Desktop/Write_test.xlsx')
从Excel中读取文本,并去停用词处理,处理完后做一个简单的词频统计
import pandas as pd
import jieba
from openpyxl import load_workbook
import numpy as np