python爬虫入门知识_Python 爬虫入门知识介绍

前言

大家好,这里是「Python知识圈」python 爬虫课堂。此文首发于「Python知识圈」公众号,欢迎大家关注。

俗话说,万事开头难,学习爬虫也是如此。我们知道,python 爬虫主要步骤无非就是:获取源码、从源码中提取需要的信息、保存数据这几个主要步骤。

俗话说,万事开头难,遭遇挫折时,我们往往会在踏出的第一步选择放弃。学习爬虫亦是如此,最容易放弃的在第一步:获取源码,因为获取源码方式有很多,不同方式针对不同的页面结构。你会了一种方式,感觉很简单,但是碰到另一种情况,套用这个方法行不通时,可能会让你望而却步。话不多说,今天就带你入门爬虫。

爬虫提取页面源代码主要有两种方法:requests 库 和 selenium 库。

下面分析这两种方式的适用场景和优缺点。

requests 库提取

requests 适合提取需要的元素信息直接保存在页面的源代码里面,可以直接用 requests.get(url).text 来提取页面源码。之前发的 100 行代码找出你中意的书 项目用的就是此方法。用此方法解析前后面必须带上 text 才行。

Python

import requests

from bs4 import BeautifulSoup

url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw'

html = requests.get(url)

soup = BeautifulSoup(html.text, 'lxml')

print(soup)

1

2

3

4

5

6

importrequests

frombs4importBeautifulSoup

url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw'

html=requests.get(url)

soup=BeautifulSoup(html.text,'lxml')

print(soup)

下面是输出结果的部分截图:

JH42DK_22UO3_E3GP5Z5-395x200.jpg

requests 库提取源代码优缺点

优点:提取页面快。

缺点:不适合提取元素不是加载在源代码的项目。

selenium 库提取

selenium 库适合提取我们需要的信息不在源代码里面的,昨天发的获取网易云音乐的项目 听歌慌?80 行代码帮你搞定! 就是用的此方法。

我们通过 F12 代码调试元素里面可以看到我们需要提取的元素,但是在源代码里面找不到这些元素,这时只能用自动化测试库 selenium 库,通过操作浏览器的驱动来操作浏览器,所以前期工作需要把对应的驱动 driver 下载下来放在 python 3 安装的目录下。

注意:driver 的版本需要浏览器版本对应,比如我用的 Chrome 谷歌浏览器 67.0 版本,对应的 chromedriver 版本是 2.38,对应关系表和驱动下载链接可在我公众号后台回复 「谷歌驱动」 获取。

看下昨天爬虫爬取音乐的代码

Python

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

browser = webdriver.Chrome()

wait = WebDriverWait(browser,5) #设置等待时间

#返回歌手名字和歌手id

def get_singer(url):

browser.get(url)

browser.switch_to.frame('g_iframe')

html = browser.page_source

soup=BeautifulSoup(html,'lxml')

1

2

3

4

5

6

7

8

9

10

11

12

fromseleniumimportwebdriver

fromselenium.webdriver.support.uiimportWebDriverWait

browser=webdriver.Chrome()

wait=WebDriverWait(browser,5)#设置等待时间

#返回歌手名字和歌手id

defget_singer(url):

browser.get(url)

browser.switch_to.frame('g_iframe')

html=browser.page_source

soup=BeautifulSoup(html,'lxml')

selenium 库提取源代码优缺点

优点:用 selenium 自动化库模拟人工操作浏览器,不用设置代理 ip 和 headers 去做反爬虫处理,可以直接提取页面元素里的信息。

缺点:模拟人工操作浏览器,受到网络影响,爬虫速度没有 requests 库提取快。

用 selenium 库处理时还有一个坑需要注意,需要提取的页面元素不在主框架frame 里面,而是在其中的一个子框架 iframe 里面,需要找到这个子框架的 id,并切换到这个子框架后才提取页面。怎么找到这个子框架呢?教大家一个笨方法,在元素区域搜索 iframe,点到搜索到的 iframe,如果阴影区域包括你需要提取的元素,那就是这个 iframe,提取它的 id 即可。

0UM_GJQ6JRLZDW0SJ7WN-400x188.jpg

找到子框架的 id 后,用 swith_to.frame(“”) 切换到此框架。

本次爬虫入门知识点就分享到这里。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
4S店客户管理小程序-毕业设计,基于微信小程序+SSM+MySql开发,源码+数据库+论文答辩+毕业论文+视频演示 社会的发展和科学技术的进步,互联网技术越来越受欢迎。手机也逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。手机具有便利性,速度快,效率高,成本低等优点。 因此,构建符合自己要求的操作系统是非常有意义的。 本文从管理员、用户的功能要求出发,4S店客户管理系统中的功能模块主要是实现管理员服务端;首页、个人中心、用户管理、门店管理、车展管理、汽车品牌管理、新闻头条管理、预约试驾管理、我的收藏管理、系统管理,用户客户端:首页、车展、新闻头条、我的。门店客户端:首页、车展、新闻头条、我的经过认真细致的研究,精心准备和规划,最后测试成功,系统可以正常使用。分析功能调整与4S店客户管理系统实现的实际需求相结合,讨论了微信开发者技术与后台结合java语言和MySQL数据库开发4S店客户管理系统的使用。 关键字:4S店客户管理系统小程序 微信开发者 Java技术 MySQL数据库 软件的功能: 1、开发实现4S店客户管理系统的整个系统程序; 2、管理员服务端;首页、个人中心、用户管理、门店管理、车展管理、汽车品牌管理、新闻头条管理、预约试驾管理、我的收藏管理、系统管理等。 3、用户客户端:首页、车展、新闻头条、我的 4、门店客户端:首页、车展、新闻头条、我的等相应操作; 5、基础数据管理:实现系统基本信息的添加、修改及删除等操作,并且根据需求进行交流信息的查看及回复相应操作。
现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本微信小程序医院挂号预约系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此微信小程序医院挂号预约系统利用当下成熟完善的SSM框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。微信小程序医院挂号预约系统有管理员,用户两个角色。管理员功能有个人中心,用户管理,医生信息管理,医院信息管理,科室信息管理,预约信息管理,预约取消管理,留言板,系统管理。微信小程序用户可以注册登录,查看医院信息,查看医生信息,查看公告资讯,在科室信息里面进行预约,也可以取消预约。微信小程序医院挂号预约系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值