python爬虫之定位网页元素的三种方式
2018年08月02日 13:30:02 Barry__ 阅读数:1373 标签: python 更多css
我的分类: pythonhtml
版权声明:本文为博主原创文章,转载请注明出处 https://blog.csdn.net/rankun1/article/details/81357179python
在作爬虫的过程当中,网页元素的定位是比较重要的一环,本文总结了python爬虫中比较经常使用的三种定位网页元素的方式。正则表达式
1.普通的BeautifulSoup find系列操做app
2.BeautifulSoup css选择器python爬虫
3. xpathurl
这三种方式灵活运用,再配合上正则表达式,没有什么网页能难倒你啦。spa
咱们以获取豆瓣电影top250第一页的电影标题为例来比较:.net
import requests
from bs4 import BeautifulSoup
from lxml import etree
# 经过find定位标签
# BeautifulSoup文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
def bs_parse_movies(html):
movie_list = []
soup = BeautifulSoup(html, "lxml")
# 查找全部class属性为hd的div标签
div_list = soup.find_all('div', cl