爬虫概念以及网站首页爬取

最新推荐文章于 2023-04-27 10:22:51 发布

liaoMITC

最新推荐文章于 2023-04-27 10:22:51 发布

阅读量5.3k

点赞数 1

文章标签：爬虫 python

本文链接：https://blog.csdn.net/liaojsgtcg/article/details/120291492

版权

爬虫的概念简述

爬虫有什么分类

通用网络爬虫
聚焦网络爬虫
增量式网络爬虫
Deep Web 爬虫

爬虫的基本流程

发起请求
获取响应内容
解析内容
即
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

爬取网站需要注意什么

爬取网页具有三大风险，即性能骚扰，法律风险，隐私泄露。我们应遵守Robots协议。
Robots协议：
obots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。遵守Robots协议能减少违法风险。

什么是数据解析？爬虫一般用什么来处理？

数据解析：

有耐心有耐心的一步一步查找、排除就会提取出目标信息。

处理方式：

一是通过正则表达式，在python中就是利用re模块；二是xpath；三是利用BeautifulSoup。

爬取网站首页

用百度和搜狗来举例子
百度爬取首页会出现乱码，需要在获取数据后对其的编码格式修改成utf-8。

爬取搜狗首页

import  requests

"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

"""
url = 'https://www.sogou.com/'

response = requests.get(url)
text = response.text

print(text)

with open('./sogou.html','w',encoding='utf-8') as  f :
    f.write(text)

print("数据爬取结束!!!!!")

爬取百度首页

import  requests

"""
-指定url
-发起请求requests.get
-获取响应数据
-持久化存储

"""
url = 'https://www.baidu.com/'

response = requests.get(url)
text = response.text

print(text)

with open('./baidu.html','w',encoding='utf-8') as  f :
    f.write(text)

print("数据爬取结束!!!!!")