之前学了一点bs4库的使用和html的基础知识,今天没有系统性的学习一点爬虫知识,只是在努力爬取某一个网页。
在这个过程中,接触到了selenium包的Webdriver。今天用这个东西主要是为了获取网页的html,但是在爬取含有
frame框架的网页上,简单的webdriver不起作用。
但是对于一般的html爬取还是很有效的
至此,爬虫的第一步算是结束----get要爬取网页的html
接下来是可以用bs4的BeautifulSoup进行处理,但是有时候我们需要先提取特定的标签元素,
因此可以用webdriver中各种查找元素的方法进行处理。
这部分明天学习。