python爬虫系列(〇)——写在前面


本系列皆为作者本人原创,转载请注明,谢谢。

爬虫是什么

按照百度的定义:网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。能够对结构化的网页信息和发送的数据包获取并解析成规则的数据。
那么python爬虫能干什么呢?理论上只要用户权限能看到的内容,都是可以通过爬虫获取的,如网页上的文字、表格、图片、视频等。

为什么要写爬虫

由于从事城市计算科学相关的研究,经常需要大量的数据开展工作,如分析城市的房价分布及演变、交通网络可达性、公共设施的覆盖率、城市活力特征、餐饮企业分布及评分特征、城市环境(空气质量、水、公园)演变等。大量的数据分散在各互联网门户上,需要通过一定的技术手段进行采集和处理,爬虫提供了方便快捷的手段。当然,目前爬虫还处在一个灰色地带,对数据的收集仅用于研究工作,对于商用需谨慎,爬虫也分善恶,要用之有度防止被吞噬。

本系列文章的初衷

本系列的爬虫都是在工作和研究中积累的,记录下来一是方便自己再回顾的时候能找到当初思考的一些技术细节,做更换的总结之用;二是与从事数据科学的同行们分享交流,通过交流不断完善技术体系,做到学有所长。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值