python爬虫学习笔记1

本文是Python爬虫学习的第一部分,介绍了如何使用BeautifulSoup解析HTML,包括常用方法如find_all、find等。接着讲解了Selenium库在动态网页爬取中的应用,以及设置隐式等待、页面元素操作等。最后提到了数据存储的基本方法,如使用json库进行数据格式化和文件操作。
摘要由CSDN通过智能技术生成

前置准备:

需要安装相应的库,下面的库都是可能会用到的:
requests库:

pip install requests

selenium库:

pip install selenium

BeautifulSoup4库:

pip install BeautifulSoup4

lxml解析器;

pip install lxml

使用BeautifulSoup解析HTML

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。

#导入requests包
import requests
#导入BeautifulSoup包
from bs4 import BeautifulSoup
#导入lxml
import lxml

为了避免浏览器识别出爬虫,需要设置User-Agent

headers = {
   
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }

使用requests.get()获取网页

response = requests.get(url,headers=headers)

构建BeautifulSoup对象

soup = BeautifulSoup(response.text, "lxml")

拿到so

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值