本系列皆为作者本人原创,转载请注明,谢谢。
爬虫是什么
按照百度的定义:网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。能够对结构化的网页信息和发送的数据包获取并解析成规则的数据。
那么python爬虫能干什么呢?理论上只要用户权限能看到的内容,都是可以通过爬虫获取的,如网页上的文字、表格、图片、视频等。
为什么要写爬虫
由于从事城市计算科学相关的研究,经常需要大量的数据开展工作,如分析城市的房价分布及演变、交通网络可达性、公共设施的覆盖率、城市活力特征、餐饮企业分布及评分特征、城市环境(空气质量、水、公园)演变等。大量的数据分散在各互联网门户上,需要通过一定的技术手段进行采集和处理,爬虫提供了方便快捷的手段。当然,目前爬虫还处在一个灰色地带,对数据的收集仅用于研究工作,对于商用需谨慎,爬虫也分善恶,要用之有度防止被吞噬。
本系列文章的初衷
本系列的爬虫都是在工作和研究中积累的,记录下来一是方便自己再回顾的时候能找到当初思考的一些技术细节,做更换的总结之用;二是与从事数据科学的同行们分享交流,通过交流不断完善技术体系,做到学有所长。