Python网络爬虫

1、首先对目标站点的规模和结构进行一定的了解

检查robots.txt文件
大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站时存在哪些限制。

查看Sitemap文件(即网站地图)
网站地图提供了所有网页的链接,可以帮助爬虫定位网站最新的内容,而无需爬取每一个网页。

2、下载网页
3、抓取数据
 

爬取(crawling)   

为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般被称为爬取。爬取一个网站有很多方法,而选用哪种方法更加合适,取决于目标网站的结构,常见的有3种爬取网站:

  1. 爬取网站地图
  2. 遍历每个网页的数据库ID
  3. 跟踪网页链接

抓取(scraping)

我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取。常见的三种抓取数据的方法如下:

  1. 正则表达式
  2. Beautiful Soup
  3. lxml
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值