人工智能 《初始大数据》

1、大数据定义:   一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据的规模、快速的数据流转、多样的数据类型和价值密度低四大特征。   

2、大数据的四大特征 (4V)                               (1)数据规模大; (2)数据种类多;             (3)处理速度快; (4)数据价值密度低。  

3、数据获取(网络爬虫)                                        (1) 概念:  网络爬虫又称为网络蜘蛛、网络机器人。整个 搜索引擎系统主要包含4个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息搜索模块的核心。                                                     (2) 抓取策略                                                               深度优先策略:  在开发爬虫早期使用较多的方法。优点: 能遍历一个Web站点或深层嵌套的文档集合。缺点:  因为Web结构相当深,有可能造成一旦进去再也出不来的情况发生。               广度优先策略: 通常是实现爬虫的最佳策略,可以让网络爬虫并行处理,提高其抓取速度。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值