BeautifulSoup的使用
Python用来爬取网页数据是比较方便的,对于html格式的静态数据,使用python来获取数据效率很高。在PYTHON中,用的最多的爬取数据module就是beautifulsoup,下面就来详细介绍beautifulsoup的使用。
1.确认需要获取的数据对象
首先我们需要确认获取对象,这里我使用天天基金网的基金净值为例子:
黄色高亮是这次希望抓下来的数据,6.27的基金净值以及对应的基金symbol。
2.查看网页源(CTRL + U)
我们也可以右击然后点击inspect(ctrl+shift+i),由于现在很多网页时动态数据填写,往往inspect里面能看到的数据实际上是js填进去的,使用View page source可以看出来是静态网页还是动态网页(这里只介绍爬静态网页数据)。我们首先随意复制一个基金净值然后在代码源里搜索,如下图&#x