首先找一个网站,例如
urlHTML='http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book'
接下来利用urllib库抓取数据,保存数据到一个变量中
request_data=urllib.request.urlopen(urlHTML)
用beautifulSoup解析网页语法,并保存结果,注意此处第二个参数不能使用单引号,
否则会出现BUG NoneType object has no attribute 'find_all'
soup=BeautifulSoup(request_data,"html.parser")
字典定义筛选规则,使用bS库find方法抓取数据