网络舆情信息分析系统——(1)

学院实验室找老师,跟着老师做的项目。

四个大四,六个大三,分成三个组开始做的一个java项目。

先从网络上抓取数据,然后聚类分析,然后感情分析,得出最终结果。

我在的一组是做网络爬虫,将数据抓取下来供后面两个小组使用。一直都是在学java,所以做这个反而比做之前那个要顺手要舒服。

刚开始的时候,拿到手的,就是一个半成品。但是很多缺陷,比如暂时只能抓搜狐的,比如评论抓取有问题,存储慢,抓取慢,等等。

经过一个月边上课边做,还有好多别的事情。目前做到了:可以准确完整的抓取到搜狐上想要的新闻和评论,存储到文件系统中。现在第一紧要缺陷就是慢,很慢,这个问题正在解决,java并发多线程,应该可以极大提高资源利用率,提高效率。如果有哪位大哥大姐有建议或者方法也请指教。其次要解决的问题就是,如何自动适应不同门户网站,现在只能抓取搜狐的网页内容。


继续做,有空再写。希望大哥大姐们能有所指导,谢谢~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值