第一章-爬虫基础简介

    • 什么是爬虫?

爬虫就是一种计算机程序,它的行为就像是蜘蛛顺着互联网爬行。

通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网上自动放入进行数据抓取。

    • 为什么需要爬虫?

在互联网中抓取需要的数据。

    • 爬虫可以做什么?

  • 收集数据:是爬虫最直接、最常用的使用方法

  • 信息调查

  • 刷流量与秒杀活动:刷流量是爬虫天然自带的功能

    • 爬虫的价值?

  • 数据自动下载:百度图片的批量下载

  • 数据聚合平台

  • 接单兼职:码市、猪八戒、开源众包

  • 转行就业

    • 通用爬虫与聚焦爬虫

通用爬虫是把互联网的网页下载下来,放在本地服务器,形成备份,再对这些数据进行处理,提取关键字,并向用户提供接口。

因通用爬虫智只能爬取文字相关数据,有很多格式都不行,比如:视频、音频、图片等;且爬虫内容千篇一律,不能针对不同背景提供特定结果;并且不能理解人类语义上的检索。因此聚焦爬虫就出现了。

针对于某一类的数据进行采集->聚焦爬虫

    • Chrome浏览器的开发者工具

Chrome开发者工具是内置于谷歌浏览器中的web开发调试工具,对于网站的调试、分析等都特别有帮助。

点击“检查”即可打开开发者工具,或者是按键盘F12,如下图所示:(但是有些笔记本是不能直接按F12,直接按是出现其他的工具,例如我的就是出现日历,在这里的解决方法就是按住键盘上的fn键的同时按住F12)

network(网络请求抓包)用得最多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值