一、什么是大数据
5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、科学研究、政策制定
二、大数据主要任务
1、Fetching 采集/爬虫/抓取
实战案例
任务:1000个查询,整理各大搜索引擎的结果url。循环取得网址,获取内容,存储。
优化及改进1:单线程下载太慢,单线程->多线程
优化及改进2:创建线程开销大,多线程->线程池