[color=blue][b]一、music.qq.com 歌曲数据爬虫程序[/b][/color]
[color=violet]
该项目是video.google.cn视频搜索引擎项目的爬虫程序学习案例,以music.qq.com为数据源,利用HTMLParser开发网络爬虫程序,抓取music.qq.com歌曲数据资源,抓取到歌曲数据23万余首,歌手资料及头像图片近两万,并保存到本地硬盘。[/color]
[b][color=blue]二、仿video.google.cn大型百万级视频搜索引擎项目[/color][/b]
[color=violet]该项目分视频数据采集和搜索引擎两部分,开发周期耗时一个月,锻炼知识点:J2SE基础+JDBC+HTMLParser+Lucene+Swing+JSP+Servlet。
1. 视频数据采集
以56.com为数据源,利用HTMLParser开发网络爬虫程序,抓取56.com的用户资料/视频/专辑数据并写入数据库,编写的爬虫程序能抓取到56.com百万级的视频数据资源。
2. 搜索引擎开发
用Lucene开发视频搜索引擎,首先以庖丁中文分词来生成视频数据的索引库,然后分别用Swing和JSP+Servlet来开发桌面版和WEB版的视频搜索引擎。
项目架构图如下:[/color]
[color=blue][b]三、 简易版OA项目[/b][/color]
[color=violet]
该项目开发时间较短,仅规划了较简单的OA功能,目的在于锻炼Struts2+Spring+Hibernate+EHCache+URLRewrite+JQuery的综合运用。
功能包括:
1. 部门管理。
2. 职员管理。
3. 权限管理(锻炼Struts2拦截器的应用)。
4. 共享文档(锻炼Struts2的文件上传)
5. 留言板(锻炼Struts2结合jquery实现ajax)。
6. 全部页面一律要求国际化,OGNL表达式开发。[/color]
[b][color=blue]四、 仿土豆网(www.tudou.com)大型WEB2.0视频网站项目[/color][/b][color=violet]
整个项目分土豆网前台和网站后台管理系统两部分。
首先将第一期的视频搜索引擎项目百万级的视频/专辑/用户数据导入土豆网数据库,在百万级的大数据量情况下锻炼数据库的优化。然后分八个小组团队协作开发,周期耗时一个半月。
1. 土豆网前台
先从土豆网上将其HTML,CSS,Javascript,图片等相关文件下载到本地硬盘。
开发土豆网的首页、豆单、排行、视频播放页、用户注册/登录、用户个人主页、日志管理、视频上传/管理、豆单管理、标签管理、好友管理、短消息等功能。
技术工具:
a) 采用Trufun Kant for Java的Eclipse插件做UML用例图和类图设计。
b) 采用Apache+Tomcat做Web Server。
c) 采用Struts2+Spring+Hibernate+EHCache+URLRewrite做服务器端实现。
d) 采用JQuery做Ajax实现。
e) 采用Flex/Flash AS3开发FLV视频播放器。
f) 采用mencoder做服务器端视频格式到FLV的转码。
g) 采用FFMPEG 做视频的截图。
h) 数据库做索引优化,EHCache查询缓存,前台频道首页一律由管理后台生成纯HTML静态页。
2. 网站后台管理系统
网站管理后台主要负责注册用户、视频、豆单等数据的管理(增/删/查/改/审核/推荐),注册用户、PV流量、视频播放次数等数据的图形报表统计,生成网站前台纯静态HTML页面等功能。
技术工具:
a) 采用Apache+Tomcat做Web Server。
b) Spring+Hibernate+EHCache做服务器端实现。
c) 纯Flex 开发管理后台界面,Flex Chart 组件开发统计报表。
d) 采用Blazeds实现Flex与Spring交互。
e) 采用JAVA反射机制(java.lang.reflect)开发HTML页面生成的模板引擎。[/color]
[color=violet]
该项目是video.google.cn视频搜索引擎项目的爬虫程序学习案例,以music.qq.com为数据源,利用HTMLParser开发网络爬虫程序,抓取music.qq.com歌曲数据资源,抓取到歌曲数据23万余首,歌手资料及头像图片近两万,并保存到本地硬盘。[/color]
[b][color=blue]二、仿video.google.cn大型百万级视频搜索引擎项目[/color][/b]
[color=violet]该项目分视频数据采集和搜索引擎两部分,开发周期耗时一个月,锻炼知识点:J2SE基础+JDBC+HTMLParser+Lucene+Swing+JSP+Servlet。
1. 视频数据采集
以56.com为数据源,利用HTMLParser开发网络爬虫程序,抓取56.com的用户资料/视频/专辑数据并写入数据库,编写的爬虫程序能抓取到56.com百万级的视频数据资源。
2. 搜索引擎开发
用Lucene开发视频搜索引擎,首先以庖丁中文分词来生成视频数据的索引库,然后分别用Swing和JSP+Servlet来开发桌面版和WEB版的视频搜索引擎。
项目架构图如下:[/color]
[color=blue][b]三、 简易版OA项目[/b][/color]
[color=violet]
该项目开发时间较短,仅规划了较简单的OA功能,目的在于锻炼Struts2+Spring+Hibernate+EHCache+URLRewrite+JQuery的综合运用。
功能包括:
1. 部门管理。
2. 职员管理。
3. 权限管理(锻炼Struts2拦截器的应用)。
4. 共享文档(锻炼Struts2的文件上传)
5. 留言板(锻炼Struts2结合jquery实现ajax)。
6. 全部页面一律要求国际化,OGNL表达式开发。[/color]
[b][color=blue]四、 仿土豆网(www.tudou.com)大型WEB2.0视频网站项目[/color][/b][color=violet]
整个项目分土豆网前台和网站后台管理系统两部分。
首先将第一期的视频搜索引擎项目百万级的视频/专辑/用户数据导入土豆网数据库,在百万级的大数据量情况下锻炼数据库的优化。然后分八个小组团队协作开发,周期耗时一个半月。
1. 土豆网前台
先从土豆网上将其HTML,CSS,Javascript,图片等相关文件下载到本地硬盘。
开发土豆网的首页、豆单、排行、视频播放页、用户注册/登录、用户个人主页、日志管理、视频上传/管理、豆单管理、标签管理、好友管理、短消息等功能。
技术工具:
a) 采用Trufun Kant for Java的Eclipse插件做UML用例图和类图设计。
b) 采用Apache+Tomcat做Web Server。
c) 采用Struts2+Spring+Hibernate+EHCache+URLRewrite做服务器端实现。
d) 采用JQuery做Ajax实现。
e) 采用Flex/Flash AS3开发FLV视频播放器。
f) 采用mencoder做服务器端视频格式到FLV的转码。
g) 采用FFMPEG 做视频的截图。
h) 数据库做索引优化,EHCache查询缓存,前台频道首页一律由管理后台生成纯HTML静态页。
2. 网站后台管理系统
网站管理后台主要负责注册用户、视频、豆单等数据的管理(增/删/查/改/审核/推荐),注册用户、PV流量、视频播放次数等数据的图形报表统计,生成网站前台纯静态HTML页面等功能。
技术工具:
a) 采用Apache+Tomcat做Web Server。
b) Spring+Hibernate+EHCache做服务器端实现。
c) 纯Flex 开发管理后台界面,Flex Chart 组件开发统计报表。
d) 采用Blazeds实现Flex与Spring交互。
e) 采用JAVA反射机制(java.lang.reflect)开发HTML页面生成的模板引擎。[/color]