获取数据:
requests,这个库基本就是获取数据最基本的库了,可以说每一个爬虫都在这开始的,书上给出了这个库的get用法,然后就是循环了。
利用get方法,对于静态网页,根据不同的网页变化,在循环中改变URL就可以获取需要的数据了。
r = requests.get(url,headers = headers)
有了这些基本的,基本上大部分网页都可以获取数据了。
获取数据的selenium方法:
利用webdriver类,具体版本变化挺大。
解析数据:
from bs4 import BeautifulSoup,bs4轻松搞定。request获取的是html文件,对于标签语言,利用find获取固定部分的数据,这需要可以读懂html语言,对于爬虫来说只需要知道你需要那部分的标签组成就可以了,这个需要分析一下网站数据的构成。
典型的:
soup = BeautifulSoup(r.text,"html.parser") 以什么方式解析数据
title = soup.find("div",class_="close_tag").a.text.strip() 读取具体位置的数据
存储数据:
mysql
MongoDB