”爬虫“---小葵第一次听到这个词的时候啊,觉得是个很复杂的东西,事实也证明他确实是很复杂。特别是像自己这种小白,对Python感兴趣,有一点基础,但是对爬虫还是很陌生,不知道该如何着手。网上的文章教程很多,小葵决定照着一篇教程来开启自己的爬虫之旅。
那么就跟着小葵开始吧~
选择的一篇教程是 Python爬虫爬取豆瓣读书,这个大家应该不陌生,应该看到过很多类似的这种文章了。
首先打开豆瓣链接 https://book.douban.com/top250?start=0,看一下页面的内容。
小葵想要爬取该页的书名、作者、国籍 、评分、评价人数、出版时间、价格这些信息,那么这些信息在网页的源代码里面是怎样的呢,怎么找到他们呢?首先,我们可以在标题“追风筝的人”上点击右键