框架——大框架,小框架
高频词
高频词语
高频词句
第一步,通过各种途径找到资源。
一是文件系统;对目录中文件进行扫描,需要有递归。
二是网上资源。
用JSOUP等,掌握JSOUP,还有网络流的技术等东东。
需要的并且可以看到的资源都能下下来,装进去。
jsoup使用的三个步骤:一是解析为document;二是选择,selector;三是抽取,element的attr等。
2012.05.21 实现jsoup爬取
2012.05.22 实现本机搜索
2012.05.26 实现下载,对html直接用jsoup进行截取,处理成string;对doc等格式,按照流的方式进行截取。
2012.05.29 实现把文本文件读入数据库
2012.05.29 解决乱码问题,用的是对文件进行自动转码
下一步计划:回顾和总结,解决读入数据库乱码的问题,排重(排重可以用hashcode进行)
用一周的时间进行回顾和总结
第二步,存储资源
——操作数据库
以文章、段落、句子为对象,进行分析,装入数据库;
用MYSQL数据库。
主要是对各种格式的存储,比如文本、音乐和视频等等。
把下下来的东东都能装进去。
第三步,加工资源。
切割文章,成为段、句;
用POI和正则表达式。
对资源进行加工。
第四步,分析资源——关键字抽取 keyword extraction
对文章、段落和句子贴标签,标签应该可以按一类、二类、三类进行分类;
用JAVA,或者进行WEB编程。
对资源进行分类。
第五步,发布资源
通过DJANGO或者java的框架。