在学习Python爬虫过程中,主要用两个模块:
import requests
from bs4 import BeautifulSoup
requests用于将链接转化成html语言,而BeautifulSoup则用于查找需要的内容。
最开始一般写成如下格式:
res = requests.get('https://www.qiushibaike.com/hot/#') #以糗事百科为例
soup = BeautifulSoup(res,'html.parser')
通过采用soup.select()方法,可以得到所需的内容。
其中关键点在于,对于所需内容的精准定位,通过()内的语句来实现:
1、class
对于html内的内容,可以通过class来进行定位,一般形式为:
soup.selecet('.class')
这样可以定位到所有class内容的内容。
2、id
id在一个html中是唯一的,因此可以通过id来找寻唯一的内容,形式为:
soup.select('#id')
3、标签
标签的话,可以直接寻找:
soup.select('a')
4、组合查找
某一类下的某个标签中的内容,采用空格隔开:
soup.select('.class a')
这些只是最基本的用法,在以后的学习过程中还会继续补充。