获取豆瓣用户看过的电影名以及评分,短评,标签等

数据定向到mysql数据库中,并备份到本地文件

#/bin/bash

# name:         get_see_movies.sh
# version:      1.0
# ceateTime:    2018-08-12
# description:  输入豆瓣用户id,获取所有看过的电影以及评分,标签等,并存到数据库中
# author:       mengyanhuangchao
# email:        406993906@qq.com

# description:	判断输入参数是否合

#INFO打印
info_log(){
    echo -e "[INFO]$1"
}

#SUCCESS打印

success_log(){
    echo -e "\033[32m[SUCCESS]\033[0m$1"
}

#ERROR打印
error_log(){
    echo -e "\033[31m[ERROR]\033[0m$1"
}

if [ $# -eq 1 ];then
    if [ -n "$(echo $1| sed -n "/^[0-9]\+$/p")" ];then
        info_log "The user id you searched for is $1"
    else
        error_log "The user id must number"
        exit 1
    fi
else
	error_log "Usage: bash $0 162545416";
	exit 1
fi
movie_number=`curl -s https://movie.douban.com/people/$1/collect|egrep "看过的电影"|awk -F '(' '{print $2}' |awk -F ')' '{print $1}'|uniq`
user_name=`curl -s https://movie.douban.com/people/$1/collect|egrep "看过的电影"|awk -F '看过的电影' '{print $1}'|awk -F '>' '{print $2}'|tail -n1`
info_log "$user_name see $movie_number movies"
info_log 'Please wait a moment....'
for i in `seq 0 15 $movie_number`;do
    curl -s https://movie.douban.com/people/$1/collect?start=$i > html
    cat html |egrep "<em>"| egrep -v '= title'|awk -F '>' '{print $2}' |awk -F '<' '{print $1}'|awk -F ' ' '{print $1}'  > moviename
    for moviename in `cat moviename`;do
        cat html| egrep -A13 "<em>$moviename" >test1
        rating=`cat test1|egrep 'rating' |awk -F 'rating' '{print $2}' |awk -F '-' '{print $1}'`
        date=`cat test1|egrep 'date' |awk -F '>' '{print $2}' |awk -F '<' '{print $1}'`
        comment=`cat test1|egrep 'comment' |awk -F '>' '{print $2}' |awk -F '<' '{print $1}'`
        tags=`cat test1|egrep 'tags' |awk -F '>' '{print $2}' |awk -F '<' '{print $1}'`
        echo -e "|$moviename |$date |$comment |$tags |$rating" >>movietable
        mysql -u root -padmin <<EOF
        use moviebase;
        insert into movietable (moviename,date,comment,tags,rating) values ('$moviename','$date','$comment','$tags','$rating');
EOF
    done
done
rm html  moviename test1
success_log "all info save $PWD/movietable and mysql"
[root@test test]# bash get_see_movies.sh 162545416
[INFO]The user id you searched for is 162545416
[INFO]猫仔饭 see 169 movies
[INFO]Please wait a moment....
[SUCCESS]all info save /home/test/data1/mysql/test/movietable and mysql



mysql> SELECT * from movietable  WHERE BINARY rating='5';
+-----------------------+------------+------------------------------------------+----------------------------------------------+--------+
| moviename             | date       | comment                                  | tags                                         | rating |
+-----------------------+------------+------------------------------------------+----------------------------------------------+--------+
| 飞屋环游记       | 2018-05-31 |                                          |                                              | 5      |
| 疯狂动物城       | 2018-05-31 |                                          |                                              | 5      |
| 忠犬八公物语    | 2018-05-31 |                                          |                                              | 5      |
| 机器人总动员    | 2018-04-12 | 没有见过光之前,黑暗可能还䟼                                              | 5      |
| 我们这一天       | 2018-02-28 | 最爱的剧,没有之一~           |                                              | 5      |
| 熔炉                | 2018-02-12 | 拍出了生活最真实的样子。     |                                              | 5      |
| 星际穿越          | 2018-02-09 | 和男朋友一起看的第一部电影퟼                                              | 5      |
| 楚门的世界       | 2018-02-09 | “如果再也不能见到你,祝你䟼 标签: 人生 楚门的世界 经典        | 5      |
| 泰坦尼克号       | 2017-11-30 | 爱情!                                |                                              | 5      |
| 阿甘正传          | 2017-11-30 | 坚持!                                |                                              | 5      |
| 肖申克的救赎    | 2017-11-30 | 最爱!                                | 标签: 美国                               | 5      |
| 大宋提刑官       | 2017-08-19 | 佳作。                                | 标签: 古装 悬疑 大宋提刑官 推理 | 5      |
| 不能说的秘密    | 2017-08-06 | 好吧,看了知乎上某个回答后㟼 标签: 周杰伦 不能说的秘密         | 5      |
| 冰川时代          | 2017-07-02 | 很喜欢~                             | 标签: 搞笑 经典 温情                 | 5      |
| 这个杀手不太冷 | 2017-07-02 | 人生一直如此艰辛。              | 标签: 成长                               | 5      |
| 霸王别姬          | 2017-07-02 | 声嘶力竭之后暴露的人性更让䟼 标签: 人性 哥哥                        | 5      |
| 黑镜                | 2017-06-25 |                                          | 标签: 英国 英剧 黑暗系              | 5      |
| 神探夏洛克       | 2017-06-25 |                                          | 标签: 英剧 侦探 福尔摩斯 推理    | 5      |
+-----------------------+------------+------------------------------------------+----------------------------------------------+--------+
18 rows in set (0.00 sec)

已知bug:当一列中有两部相同的电影的时候获取元素会有问题,有时间在优化一下上述bug,再顺便写一下提供查找的方法

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
****************************模板规范化管理 开始**************************** 每个模版要把所用的css,js,img,html按照相关规定,放到指定目录。 每个模版都可定义不同的样式,所以系统内置的功能的相关文件也都放在了模版里,每个模版里存储一份,避免替换系统目录下的其他文件。 ads/ 存放广告js文件,可自定义称, 在当前模版路径的config.xml 里配置好 html/ 存放html模版文件,可自定义称,在后台配置好。 js/ 存放模版相关js文件 js/home.js 系统内置功能的JS函数库 css/ 存放样式表文件 css/home.css 系统内置功能的样式表,例如 顶踩,联想搜索,星星评分,历史记录,留言本,评论等功能。 css/style.css 当前模版的自定义样式表 images/ 存放模版的相关图片 images/home/ 存放系统内置功能的相关图片,例如 顶踩,联想搜索,星星评分,历史记录,留言本,评论等功能。 images/ads/ 存放广告图片 template/user/ 为系统会员中心的模版及相关css和js ****************************模板规范化管理 结束**************************** ****************************系统内置JS、CSS说明 开始**************************** 文件:js/home.js MAC.Url 当前网页的链接 MAC.Title 当前网页的标题 MAC.Copy(s) 复制内容到剪切板; s=字符串 MAC.Home(o,u) 设置默认主页; 设置主页 MAC.Fav(u,s) 加入浏览器收藏夹; 加入收藏 MAC.Open(u,w,h) 弹出网页;u=网址,w=宽度,h=高度 MAC.Cookie.Set(name,value,days) 设置cookie的值; name=cookie称,value=cookie值,days=过期时间 MAC.Cookie.Get(name) 获取cookie的值; name=cookie称 MAC.Cookie.Del(name) 删除cookie的值; name=cookie称 MAC.AdsWrap(w,h,n) 预留广告位占位; w=宽度,h=高度,n=称 自动加载设置项: html元素ID为history: 自动设置为鼠标移动滑入滑出 显示隐藏 历史记录。 html元素ID为wd: 自动设置联想搜索功能。 延迟加载图片: img元素不要使用src调用图片地址,而是用data-original。 ****************************系统内置JS、CSS函数库说明 结束**************************** ****************************模板规范化管理 结束**************************** ****************************模板介绍开始**************************** home_include.html 全站公共引入文件 引入js、css样式,还有系统JS变量 home_head.html 全站头部 home_foot.html 全站尾部 home_gbook.html 留言本 home_comment.html 评论 label_ 开头的都是自定义页面 art_detail.html 文章内容页 art_index.html 文章首页 art_list.html 文章分类筛选页 art_map.html 文章地图页 art_search.html 文章搜索页 art_topicindex.html 文章专题首页 art_topiclist.html 文章专题数据列表页 art_type.html 文章分类页 vod_detail.html 视频内容页 vod_index.html 视频首页 vod_list.html 视频分类筛选页 vod_map.html 视频地图页 vod_play.html 视频播放页 vod_playopen.html 视频弹窗播放页 vod_search.html 视频搜索页面 vod_topicindex.html 视频专题首页 vod_topiclist.html 视频专题数据列表页 vod_type.html 视频分类页面 ****************************模板介绍结束**************************** ****************************全局标签开始**************************** {maccms:runtime} 页面运行时间、查询次数、占用内存 {maccms:date} 当前日期 {maccms:siteaid} 当前所在模块ID {maccms:url} 网站域 {maccms:name} 网站称 {maccms:keywords} 网站关键字 {maccms:description} 网站描述信息 {maccms:icp} 网站备案号 {maccms:qq} 网站管理QQ {maccms:email} 网站管理Email {maccms:visits} 网站统计代码 {maccms:path} 安装目录 {maccms:path_ads} 当前模版广告文件目录 {maccms:path_tpl} 当前模版HTML文件目录 {maccms:suffix} 文件后缀 {maccms:link_gbook} 留言本链接 {maccms:link_search_vod} 视频搜索页链接 {maccms:link_search_art} 文章搜索页链接 {maccms:link_index} 视频首页链接 {maccms:link_index_art} 文章首页链接 {maccms:link_map_vod} 视频地图链接 {maccms:link_map_art} 文章地图链接 {maccms:link_topic_vod} 视频专题首页链接 {maccms:link_topic_art} 文章专题首页链接 {maccms:link_map_rss} RSS链接 {maccms:link_map_baidu} Baidu SiteMap链接 {maccms:link_map_google} Google SiteMap链接 {maccms:count_vod_all} 视频数据总量 {maccms:count_vod_day} 视频当天更新数据量 {maccms:count_art_all} 文章数据总量 {maccms:count_art_day} 文章当天更新数据量 {maccms:count_user_all} 会员总数 {maccms:count_user_day} 会员当天注册数量 {maccms:userid} 当前登录会员ID {maccms:username} 当前登录会员 {maccms:usergroupid} 当前登录会员组ID,如果没有登录则是空 {maccms:curvodtypeid} 视频当前分类ID {maccms:curvodtypepid} 视频当前分类的父分类ID {maccms:curvodtopicid} 视频当前专题ID {maccms:curarttypeid} 文章当前分类ID {maccms:curarttypepid} 文章当前分类的父分类ID {maccms:curarttopicid} 文章当前专题ID {maccms:load label.html} 载入自定义页面内容 {maccms:getlink label.html} 获取自定义页面的链接 {maccms:siteaid} 当前所在系统模版id 视频首页 10 视频地图页 11 视频分类,筛选页 12 视频专题首页 13 视频专题数据列表 14 视频搜索页 15 视频内容页 16 视频播放页 17 视频下载页 18 文章首页 20 文章地图页 21 文章分类,筛选页 22 文章专题首页 23 文章专题数据列表 24 文章搜索页 25 文章内容页 26 系统留言本 30 系统评论 31 系统用户中心 40 ****************************全局标签结束**************************** ****************************条件判断if标签 开始**************************** if标签,支持多重嵌套,每个层级的if标签不能相同 例: {if-A:[vod:num] > 1 }....{endif-A} {if-A:[vod:num] mod 2=0}....{else-A}....{endif-A} {if-A:[vod:num] mod 2=0}....{elseif-A}....{else-A}....{endif-A} {if-A:not isN("[vod:remarks]")} [vod:remarks] {elseif-A:[vod:state]=0} [完结] {elseif-A:[vod:state]>0} {if-B:[vod:state]>10000} [连载[vod:state]]期 {else-B} [连载[vod:state]]集 {endif-B} {else-A} {endif-A} ****************************条件判断if标签 结束**************************** ****************************用户登陆页面标签 开始**************************** 用户登录窗口iframe调用: <iframe src="{
基于SSM(Spring+SpringMVC+MyBatis)和Vue.js的协同过滤算法电影推荐系统是一个利用用户历史观影记录和评分数据,通过协同过滤算法来预测用户可能喜欢的电影的系统。该系统主要由以下几个模块组成: 用户管理模块:用于管理用户的信息,包括用户的基本信息、历史观影记录和评分等。 电影管理模块:用于管理电影的信息,包括电影的基本信息、剧情简介、演员表和评分等。 电影推荐模块:用于根据用户的历史观影记录和评分数据,通过协同过滤算法来预测用户可能喜欢的电影电影搜索模块:用于提供电影搜索功能,用户可以通过输入电影称或关键词来查找感兴趣的电影。 个人中心模块:用于展示用户的个人信息和历史观影记录,同时也可以查看自己的推荐电影列表。 整个系统的实现过程大致如下: 用户登录后,进入用户管理模块,获取用户的基本信息和历史观影记录。 用户电影管理模块中添加自己感兴趣的电影,并填写电影的相关信息。 用户电影推荐模块中输入自己的兴趣标签或浏览历史记录,系统会根据这些信息进行协同过滤算法分析,预测用户可能喜欢的电影用户电影搜索模块中输入电影称或关键词,系统会根据用户的搜索历史和协同过滤算法结果,返回相关的电影信息。 用户在个人中心模块中可以查看自己的推荐电影列表和历史观影记录,同时也可以修改自己的个人信息。 总之,基于SSM+Vue的协同过滤算法电影推荐系统是一个功能强大、易于使用的系统,可以帮助用户快速找到自己喜欢的电影,提高观影体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值