最头疼的问题来了,抓取下来,数据如何存储。考虑存储到hdfs文件.先分词然后存到hadoop hdfs 文件里面去,方便以后搜索。
技术难点1)地址去重 2)内容去重 (转载功能)3)数据存储 4)语义匹配 5)情感分析 6)正文提取 7)聚类等等,8)热点发现。
9)趋势分析,10)行业报告。 11)自动预警 (最难是QQ报警,QQ2009协议又关闭了,郁闷,我的QQ机器人废了,那位给我2010协议呀) 12)老板还要新闻的评论,我哭死。
最头疼的问题来了,抓取下来,数据如何存储。考虑存储到hdfs文件.先分词然后存到hadoop hdfs 文件里面去,方便以后搜索。
技术难点1)地址去重 2)内容去重 (转载功能)3)数据存储 4)语义匹配 5)情感分析 6)正文提取 7)聚类等等,8)热点发现。
9)趋势分析,10)行业报告。 11)自动预警 (最难是QQ报警,QQ2009协议又关闭了,郁闷,我的QQ机器人废了,那位给我2010协议呀) 12)老板还要新闻的评论,我哭死。