一、Beautiful Soup库入门
使用:
2、Beautiful Soup库的基本元素
soup中包含了整个html 的信息
3、基于bs4库的html内容遍历方法
4、基于bs4库的html的格式输出
prettify()
bs4总结:
二、信息组织与提取方法
1.信息标记的3种形式
①XML
②JSON
③YAML
2.三种信息标记形式的比较
3.信息提取的一般方法
4.基于bs4库的html内容查找方法
find_all()方法
5、实战
中国大学排名定向爬虫
代码大框架:
代码优化: