本文使用的语言是Python,至于为什么选Python,当然是他简单啦!好吧,其实我是被逼的,我们老师逼我们用python写爬虫。
这里的采集豆瓣电影的网址是(**https://movie.douban.com/tag/#**),如上图
大家知道爬虫的三步骤嘛,开门——抓住她——抗回家,哈哈,是不是很直接很暴力哈。
第一:找到网址,然后打开她。
第二:找到自己想采集数据的位置(这里的位置指的是在哪个div下的p标签下啊)
<div>
<p>hello,girl</p>
< /div >
这里的hello girl就在这里面。
第三:就是将采集的数据保存在文本里呀,或者.csv 或者.json里。当然常见的是保存在数据库里。
以上就是爬虫的经典三步骤。