1.准备工作
python是一门相对于其他语言来说肥肠自由的语言,从它只能用空白符作为强制缩进符就能够感受到它与众不同,爱用不用的独特气质,像这样一位潇洒任性的公子自然免不得要提前做一些准备才能驾驭。
在开始使用python前你需要:
了解编程方法(曾经学过任何一门计算机语言即可)
了解python2.x与3.x的区别,根据寄几的需求确定所使用的版本(我没有了解)
确定版本后,了解对应版本的python语法(我入门到放弃了)
在电脑上安装python(我去抱程序员小哥哥的大腿了)
了解编程方法(曾经学过任何一门计算机语言即可)
了解python2.x与3.x的区别,根据寄几的需求确定所使用的版本(我没有了解)
确定版本后,了解对应版本的python语法(我入门到放弃了)
在电脑上安装python(我去抱程序员小哥哥的大腿了)
总而言之,在看完百度百科对python名词的定义之后,为了能够敏捷而又不失优雅地完成这次操作,我慎(tou)重(lan)选择了直接进行实(ban)战(yun)演(dai)练(ma)。废话不多说,开八。
由于想要得到的是豆瓣的内容,所以选择了抓取豆瓣电影Top250的爬虫实例作为参考,具体内容见:抓取豆瓣电影Top250
http://www.cnblogs.com/jzincnblogs/p/4899348.html
这里使用的软件版本是python2,于是我果断地选择了使用python2.7版(对!我就是这么果断!)。
2.分析爬虫原理
个人对简易爬虫的理解,是机器语言对用户操作的模拟,通过程序快速处理并实现对于用户来说重复费时的工作。
模拟用户操作
以《三》的短评为例,首先键入豆瓣短评的网址https://movie.douban.com/subject/25823277/comments?status=P,载入网页后,在用户名和评分下方(定位信息),即可看到用户的短评,6w条短评,我们就要不停的点击下一页来查看,这无疑是既重复,又费时的事情。
而使用python爬虫,就只需要几分钟的时间就可以搞定啦(明明折腾了2天)。
3.分析url
可能有人会说,我平时都不是这么看短评的,我是先进主页→搜索三生三世→再点影片详情…(闭嘴)。所有在进入目标网页之前的操作,都可以以直接输入目标网址来代替。
《三》的热门短评首页网址结构:movi