书蕴——基于书评的智能推荐系统
前言
计算机设计大赛在即,和冬瑜、承意组队参加人工智能组,报的题目的:书蕴——基于书评的智能书籍推荐系统。
主体上是去做一个web系统,系统的核心功能是书籍收藏与书籍推荐。根据用户收藏书籍的书评(划重点了),来为用户推荐书籍
创新点
- 基于书籍标签协同过滤算法
- 基于word2vec方法的自然语言处理
- 标签抽取(这个名词还没想好)
思路
- 数据获取
- 数据文本预处理
- 训练word2vec模型
- 使用word2vec模型迭代获取标签
- 协同过滤算法对标签处理,实现推荐
- web系统
数据获取篇
主要是冬瑜写的python爬虫,来源是豆瓣读书,目前效率较为低下,正在尽力找到有效的方案
数据文本预处理
- 去除html标签与换行
- 去除停用词
- 分词
- 保存为文本
具体内容记录在另一篇博客:[书蕴笔记-0]文本预处理
训练word2vec模型
主要使用python的gensim包下的word2vec训练模型,模型以每本书的所有书评为主体。
之后可能考虑用一类书的书评整体训练模型。