文本预处理
前言
整体索引在此
书蕴——基于书评的人工智能推荐系统
思路
因为数据是爬虫爬下来的,具体内容被写入到了excel表里,所以文本预处理分为2块。一个是从excel中获取数据,然后去掉文本中所有的html标签,最后整理成txt文档中一行一条评论的形式。另一个是对文本去停用词、分词,处理成一个词一个空格的形式,便于word2vec训练模型。
代码与解释
pre_process_format.py
import re
import os
from openpyxl import load_workbook
def read_from_xlsx(path):
wb = load_workbook(path)
ws = wb[wb.sheetnames[0]]
rows = ws.max_row
cols = ws.max_column
for row in range(2, rows + 1):
with open("书评\\format\\" + ws.cell(row, 1).value + ".txt", 'w',
encoding=