1)进行网页信息提取分析的时候,经常要学会寻找特殊标识,特殊标识要满足唯一性,并且包含要爬取的信息,以及尽量少的无关信息. 2)通过爬虫进行自动化爬取,可以为我们省下很多事情。比如,有些站长需要采集些内容到自己的网站上,如果通过复制粘贴的方式,耗费的精力非常大,而采用爬虫的方式,我可以直接将关注的数据爬取下来,并可以用程序直接自动写进对应的数据库中,此时,网站上的内容就可以实现自动更新了。 3)我们在爬取微信文章的时扌候,经常会被官方屏蔽IP,这个问题我们可以采用46节提到的代理服务器的方式解决,同样,我们可以在百度查询代理IP获取到最新的代理服务器及端口,并尝试用这些代理服务器爬取对应网页,当然有些新代理服务器也可能失效,在这种情况下可以多试几个,或者通过互联网寻找一些稳定的更新迅速的代理服务器地址。 4)所谓的多线程爬虫,指的是爬虫中的某部分程序可以并行执行,即在多条线上执行,这种执行结构称为多线程结构,对应的爬虫称为多线程爬虫。