学习机器人

框架——大框架,小框架

 

高频词

 

高频词语

 

高频词句

 

第一步,通过各种途径找到资源。

一是文件系统;对目录中文件进行扫描,需要有递归。

二是网上资源。 

用JSOUP等,掌握JSOUP,还有网络流的技术等东东。

 需要的并且可以看到的资源都能下下来,装进去。

jsoup使用的三个步骤:一是解析为document;二是选择,selector;三是抽取,element的attr等。 

 2012.05.21  实现jsoup爬取

2012.05.22  实现本机搜索

2012.05.26  实现下载,对html直接用jsoup进行截取,处理成string;对doc等格式,按照流的方式进行截取。

2012.05.29  实现把文本文件读入数据库

2012.05.29 解决乱码问题,用的是对文件进行自动转码

下一步计划:回顾和总结,解决读入数据库乱码的问题,排重(排重可以用hashcode进行)

用一周的时间进行回顾和总结

 

第二步,存储资源

——操作数据库

以文章、段落、句子为对象,进行分析,装入数据库;

用MYSQL数据库。

主要是对各种格式的存储,比如文本、音乐和视频等等。

 把下下来的东东都能装进去。

 

第三步,加工资源。

切割文章,成为段、句;

用POI和正则表达式。

对资源进行加工。

 

 

第四步,分析资源——关键字抽取 keyword extraction

对文章、段落和句子贴标签,标签应该可以按一类、二类、三类进行分类;

用JAVA,或者进行WEB编程。

对资源进行分类。

 

第五步,发布资源

通过DJANGO或者java的框架。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值