一、网页数据抓取 从网页中抽取数据,特点是 噪音多、弱标号、无用信息多 可获取数据量大 爬网页 vs 数据抓取:爬是整个网页内容,抓取是抓特定的数据 工具:headless浏览器(selenium)、许多IP、BeautifulSoup 1. 抓取单个网页 2. 抽取数据(定位HTML元素) 3. 图片抓取 二、成本问题 存储成本网络带宽成本云计算成本CPU/GPU 三、法律问题 1. 不要爬敏感数据、隐私数据 2. 不要爬有版权的数据 3. 遵循网页服务条款