python画桃花_Python小白如何使用爬虫自动抓取《三生三世十里桃花》豆瓣电影短评...

1.准备工作

python是一门相对于其他语言来说肥肠自由的语言,从它只能用空白符作为强制缩进符就能够感受到它与众不同,爱用不用的独特气质,像这样一位潇洒任性的公子自然免不得要提前做一些准备才能驾驭。

在开始使用python前你需要:

了解编程方法(曾经学过任何一门计算机语言即可)

了解python2.x与3.x的区别,根据寄几的需求确定所使用的版本(我没有了解)

确定版本后,了解对应版本的python语法(我入门到放弃了)

在电脑上安装python(我去抱程序员小哥哥的大腿了)

了解编程方法(曾经学过任何一门计算机语言即可)

了解python2.x与3.x的区别,根据寄几的需求确定所使用的版本(我没有了解)

确定版本后,了解对应版本的python语法(我入门到放弃了)

在电脑上安装python(我去抱程序员小哥哥的大腿了)

总而言之,在看完百度百科对python名词的定义之后,为了能够敏捷而又不失优雅地完成这次操作,我慎(tou)重(lan)选择了直接进行实(ban)战(yun)演(dai)练(ma)。废话不多说,开八。

由于想要得到的是豆瓣的内容,所以选择了抓取豆瓣电影Top250的爬虫实例作为参考,具体内容见:抓取豆瓣电影Top250

http://www.cnblogs.com/jzincnblogs/p/4899348.html

这里使用的软件版本是python2,于是我果断地选择了使用python2.7版(对!我就是这么果断!)。

2.分析爬虫原理

个人对简易爬虫的理解,是机器语言对用户操作的模拟,通过程序快速处理并实现对于用户来说重复费时的工作。

模拟用户操作

以《三》的短评为例,首先键入豆瓣短评的网址https://movie.douban.com/subject/25823277/comments?status=P,载入网页后,在用户名和评分下方(定位信息),即可看到用户的短评,6w条短评,我们就要不停的点击下一页来查看,这无疑是既重复,又费时的事情。

而使用python爬虫,就只需要几分钟的时间就可以搞定啦(明明折腾了2天)。

3.分析url

可能有人会说,我平时都不是这么看短评的,我是先进主页→搜索三生三世→再点影片详情…(闭嘴)。所有在进入目标网页之前的操作,都可以以直接输入目标网址来代替。

《三》的热门短评首页网址结构:movi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值