如何针对互联网各大小说阅读网站的小说数据进行实时采集更新,建立自己的小说资源库,针对海量的小说数据开展标签处理特征分析,利用推荐算法完成针对用户的个性化阅读推荐?
基于以上问题,本次小说推荐系统,建设过程主要分为小说推荐网站前端系统,小说运维管理后台系统,小说数据实时采集爬虫三个部分。小说推荐网站前端系统主要采用开源前端框架搭建小说推荐网站,提供用户登录注册,小说阅读等功能,小说运维管理后台,提供管理员用户使用完成系统内部小说,用户等数据的管理,小说数据采集爬虫支持各大小说阅读网站的内容采集及更新,实现实时计算用户阅读特征开展个性化内容推荐。
一、程序设计
本次小说推荐系统主要内容涉及:
主要功能模块:小说推荐网站前台,系统管理后台,小说爬虫采集平台
主要包含技术:springboot,mybatis,mysql,javascript,vue.js,html,css,Jsoup,httpclient
主要包含算法:基于用户协同过滤推荐,余弦相似度,Kmeans聚类分析,内容标签计算
系统采用前后端分离的开发模式完成,系统前端主要采用Vue.js,javascript,html,CSS等技术实现。系统后端框架采用springboot+mybatis+mysql数据库搭建,针对海量的小说数据采用分表操作,完成数据存储分析。系统前后端数据交互,采用Ajax异步调用传输JSON实现。
二、小说爬虫设计
采集小说页面
采用HttpClinet构造http请求,获取第三方小说资源地址,解析网页小说内容
java实现请求代码
private static String getByHttpClient(String url) {
try {
ResponseEntity<String> forEntity = restTemplate.getForEntity(url, String.class);
if<