大数据初探

本文介绍了大数据的5V特点及其在多个领域的应用,包括数据采集、存储、挖掘等主要任务。讨论了多线程与多进程优化、NoSQL数据库如Redis和MongoDB的选择,以及数据挖掘和机器学习中的关键概念。同时,提出了成为数据科学家所需的基础知识和实践经验。
摘要由CSDN通过智能技术生成

一、什么是大数据

5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、科学研究、政策制定


二、大数据主要任务

1、Fetching  采集/爬虫/抓取

实战案例

任务:1000个查询,整理各大搜索引擎的结果url。循环取得网址,获取内容,存储。

优化及改进1:单线程下载太慢,单线程->多线程

优化及改进2:创建线程开销大,多线程->线程池

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值