爬虫概念以及网站首页爬取

爬虫的概念简述

爬虫有什么分类

  1. 通用网络爬虫
  2. 聚焦网络爬虫
  3. 增量式网络爬虫
  4. Deep Web 爬虫

爬虫的基本流程

  1. 发起请求
  2. 获取响应内容
  3. 解析内容

    -指定url
    -发起请求requests.get
    -获取响应数据
    -持久化存储

爬取网站需要注意什么

爬取网页具有三大风险,即性能骚扰,法律风险,隐私泄露。我们应遵守Robots协议。
Robots协议:
obots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。遵守Robots协议能减少违法风险。

什么是数据解析?爬虫一般用什么来处理?

数据解析:

有耐心有耐心的一步一步查找、排除就会提取出目标信息。

处理方式:

一是通过正则表达式,在python中就是利用re模块;二是xpath;三是利用BeautifulSoup。

爬取网站首页

  • 用百度和搜狗来举例子
  • 百度爬取首页会出现乱码,需要在获取数据后对其的编码格式修改成utf-8。

爬取搜狗首页

import  requests

"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

"""
url = 'https://www.sogou.com/'

response = requests.get(url)
text = response.text

print(text)

with open('./sogou.html','w',encoding='utf-8') as  f :
    f.write(text)

print("数据爬取结束!!!!!")

爬取百度首页

import  requests

"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

"""
url = 'https://www.baidu.com/'

response = requests.get(url)
text = response.text

print(text)

with open('./baidu.html','w',encoding='utf-8') as  f :
    f.write(text)

print("数据爬取结束!!!!!")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liaoMITC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值