实用机器学习-1.3 网页数据抓取

一、网页数据抓取

从网页中抽取数据,特点是

  • 噪音多、弱标号、无用信息多

  • 可获取数据量大

爬网页 vs 数据抓取:爬是整个网页内容,抓取是抓特定的数据

工具:headless浏览器(selenium)、许多IP、BeautifulSoup

1. 抓取单个网页

2. 抽取数据(定位HTML元素)

3. 图片抓取

二、成本问题

  • 存储成本
  • 网络带宽成本
  • 云计算成本CPU/GPU

三、法律问题

1. 不要爬敏感数据、隐私数据

2. 不要爬有版权的数据

3. 遵循网页服务条款

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值