程序利用requests 模块下载了一个网页之后,你会得到该页的HTML 内容,作为一
个字符串值。现在你需要弄清楚,这段HTML 的哪个部分对应于网页上你感兴趣的信息。这就是可以利用浏览器的开发者工具的地方。假定你需要编写一个程序,从
http://weather.gov/获取天气预报数据。在写代码之前,先做一点调查。如果你访问该网站,并查找邮政编码 94105,该网站将打开一个页面,显示该地区的天气预报。
如果你想抓取那个邮政编码对应的气温信息,怎么办?右键点击它在页面的位置(或在OS X 上用 Control-点击),在弹出的菜单中选择 Inspect
Element。这将打开开发者工具窗口,其中显示产生这部分网页的 HTML。图 11-5 展示了开发者工具打开显示气温的 HTML。
通过开发者工具,可以看到网页中负责气温部分的 HTML 是<p class= "myforecast-
current-lrg">57°F</p>。这正是你要找的东西!看起来气温信息包含在一个<p>元素中,带有 myforecast-current-lrg
类。既然你知道了要找的是什么,BeautifulSoup 模块就可以帮助你在这个字符串中找到它。