这一系列将分享在写网络爬虫时遇到的奇葩事
我们在写爬虫时,总是先F12看一下网页的源代码,看到内容后再想策略去抓取想要的内容,这种思路对于文本内容是静态的话是行得通的,但是如果遇到动态加载的内容,就很麻烦了,你会发现你爬下的html文件里根本找不到你想要的内容,这也是网络商应对爬虫的一种策略。
下面举例说明,用站长之家的SEO查询来讲
比如想抓这个中文网站排名的数据,看一下源码:
有,可以爬下来,看看:
我们在写爬虫时,总是先F12看一下网页的源代码,看到内容后再想策略去抓取想要的内容,这种思路对于文本内容是静态的话是行得通的,但是如果遇到动态加载的内容,就很麻烦了,你会发现你爬下的html文件里根本找不到你想要的内容,这也是网络商应对爬虫的一种策略。
比如想抓这个中文网站排名的数据,看一下源码:
有,可以爬下来,看看: