python爬虫入门知识_Python 爬虫入门知识介绍

最新推荐文章于 2023-06-19 10:21:34 发布

一周进步

最新推荐文章于 2023-06-19 10:21:34 发布

阅读量88

点赞数

文章标签： python爬虫入门知识

本文链接：https://blog.csdn.net/weixin_29420299/article/details/113984550

版权

前言

大家好，这里是「Python知识圈」python 爬虫课堂。此文首发于「Python知识圈」公众号，欢迎大家关注。

俗话说，万事开头难，学习爬虫也是如此。我们知道，python 爬虫主要步骤无非就是：获取源码、从源码中提取需要的信息、保存数据这几个主要步骤。

俗话说，万事开头难，遭遇挫折时，我们往往会在踏出的第一步选择放弃。学习爬虫亦是如此，最容易放弃的在第一步：获取源码，因为获取源码方式有很多，不同方式针对不同的页面结构。你会了一种方式，感觉很简单，但是碰到另一种情况，套用这个方法行不通时，可能会让你望而却步。话不多说，今天就带你入门爬虫。

爬虫提取页面源代码主要有两种方法：requests 库和 selenium 库。

下面分析这两种方式的适用场景和优缺点。

requests 库提取

requests 适合提取需要的元素信息直接保存在页面的源代码里面，可以直接用 requests.get(url).text 来提取页面源码。之前发的 100 行代码找出你中意的书项目用的就是此方法。用此方法解析前后面必须带上 text 才行。

Python

import requests

from bs4 import BeautifulSoup

url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw'

html = requests.get(url)

soup = BeautifulSoup(html.text, 'lxml')

print(soup)

importrequests

frombs4importBeautifulSoup

url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw'

html=requests.get(url)

soup=BeautifulSoup(html.text,'lxml')

print(soup)

下面是输出结果的部分截图：

requests 库提取源代码优缺点

优点：提取页面快。

缺点：不适合提取元素不是加载在源代码的项目。

selenium 库提取

selenium 库适合提取我们需要的信息不在源代码里面的，昨天发的获取网易云音乐的项目听歌慌？80 行代码帮你搞定！就是用的此方法。

我们通过 F12 代码调试元素里面可以看到我们需要提取的元素，但是在源代码里面找不到这些元素，这时只能用自动化测试库 selenium 库，通过操作浏览器的驱动来操作浏览器，所以前期工作需要把对应的驱动 driver 下载下来放在 python 3 安装的目录下。

注意：driver 的版本需要浏览器版本对应，比如我用的 Chrome 谷歌浏览器 67.0 版本，对应的 chromedriver 版本是 2.38，对应关系表和驱动下载链接可在我公众号后台回复「谷歌驱动」获取。

看下昨天爬虫爬取音乐的代码

Python

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

browser = webdriver.Chrome()

wait = WebDriverWait(browser,5) #设置等待时间

#返回歌手名字和歌手id

def get_singer(url):

browser.get(url)

browser.switch_to.frame('g_iframe')

html = browser.page_source

soup=BeautifulSoup(html,'lxml')

fromseleniumimportwebdriver

fromselenium.webdriver.support.uiimportWebDriverWait

browser=webdriver.Chrome()

wait=WebDriverWait(browser,5)#设置等待时间

#返回歌手名字和歌手id

defget_singer(url):

browser.get(url)

browser.switch_to.frame('g_iframe')

html=browser.page_source

soup=BeautifulSoup(html,'lxml')

selenium 库提取源代码优缺点

优点：用 selenium 自动化库模拟人工操作浏览器，不用设置代理 ip 和 headers 去做反爬虫处理，可以直接提取页面元素里的信息。

缺点：模拟人工操作浏览器，受到网络影响，爬虫速度没有 requests 库提取快。

用 selenium 库处理时还有一个坑需要注意，需要提取的页面元素不在主框架frame 里面，而是在其中的一个子框架 iframe 里面，需要找到这个子框架的 id，并切换到这个子框架后才提取页面。怎么找到这个子框架呢？教大家一个笨方法，在元素区域搜索 iframe，点到搜索到的 iframe，如果阴影区域包括你需要提取的元素，那就是这个 iframe，提取它的 id 即可。

找到子框架的 id 后，用 swith_to.frame(“”) 切换到此框架。

本次爬虫入门知识点就分享到这里。

一周进步

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门知识_Python 爬虫入门知识介绍

前言大家好，这里是「Python知识圈」python 爬虫课堂。此文首发于「Python知识圈」公众号，欢迎大家关注。俗话说，万事开头难，学习爬虫也是如此。我们知道，python 爬虫主要步骤无非就是：获取源码、从源码中提取需要的信息、保存数据这几个主要步骤。俗话说，万事开头难，遭遇挫折时，我们往往会在踏出的第一步选择放弃。学习爬虫亦是如此，最容易放弃的在第一步：获取源码，因为获取源码方式有很多，...
复制链接

扫一扫