使用bs4进行爬虫时,需要了解HTML基础知识,同时还要下载bs4,在终端中输入 pip install bs4进行下载。
首先,html的大部分代码都是以下格式:
< 标签, 属性 = 值 >
bs4就是根据这个基本格式来获取数据。
bs4的方法有两个:
find(标签, 属性 = 值):获取一个,当匹配到第一个之后就不再匹配了。
find_all(标签, 属性 = 值):获取全部可以匹配的值。
eg:
使用bs4进行爬虫时,需要了解HTML基础知识,同时还要下载bs4,在终端中输入 pip install bs4进行下载。
首先,html的大部分代码都是以下格式:
< 标签, 属性 = 值 >
bs4就是根据这个基本格式来获取数据。
bs4的方法有两个:
find(标签, 属性 = 值):获取一个,当匹配到第一个之后就不再匹配了。
find_all(标签, 属性 = 值):获取全部可以匹配的值。
eg: