爬虫可以用到requests以及美味汤
美味汤支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是lxml。
一、下载更新
直接pip install 安装即可
--pip install requests
--pip install beautifulsoup4
安装完毕之后即可开始爬虫之旅了
二、如何使用
1、可以先用requests去请求得到网站,也可以自己保存,随自己喜欢来,解析方式有4种,其他可能会使用其他插件,如下,常用html.parser
2、Beautfiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:tag,NavigableString,BeautifulSoup,Comment。
3、tag详解
—可以通过点取属性的方式获取tag,并且可以多次调用。
—通过点取属性的方式只能获取当前名字的第一个tag: