python阶段小测验-不喜勿喷(奔跑在大佬的路上的第一篇文章)


小弟这几天在玩python,比较基础,适合初学者来玩,小弟不是什么大佬写不出啥神话代码,只能靠自己的理解一步一步的敲,本个例子只是用正则表达式做出来的,没有利用框架等,如果哪位大神有兴趣和python方面知识,可以联系我,还请多多指教


爬虫题

题目1

爬取这个网址(http://v.qq.com/x/list/movie?area=100024&offset=0&cate=10001)共70页

以下字段:
电影名称,电影评分,电影主演,电影播放量,电影信息(电影图片下方文字),电影url,电影照片url
=生成task01.csv,顺序按照写的顺序
格式
title,actor,bor,rate,info,url,img
玛格丽特的春天,艾伦/王自健/田亮/胡杏儿,6978万,7.3,艾伦王自健 萌贱撩妹,https://v.qq.com/x/cover/sckfyjuncrzkyvq.html,"//i.gtimg.cn/qqlive/images/20150608/pic_v.png"" r-lazyload=""//puui.qpic.cn/vcover_vt_pic/0/sckfyjuncrzkyvq1487313815/220"

题目二

爬取网站(http://movie.mtime.com/151657/)

爬取内容字段 电影名称,时长,类型片,上映时间,导演,公司
=生成task02.csv,顺序按照写的顺序
格式
加勒比海盗5:死无对证,129分钟,动作/冒险/奇幻,2017526日,乔阿吉姆·罗恩尼/艾斯彭·山德伯格,美国,华特·迪士尼电影工作室

题目三

爬取网站(http://vip.1905.com/list/p1o6.shtml)的100页信息

爬取字段 电影名称,演员,评分,电影信息,url,图片url
=生成task03.csv,顺序按照写的顺序
格式
title,actor,rate,info,url,img
捕蛇少年,王宏伟 / 翟小光 / 庄田田,8.2,四少年智斗日伪军,http://www.1905.com/mdb/film/63746,"http://static.m1905.cn/images/vip/cnc/lazyImg.gif"" data-lazysrc=""http://image11.m1905.cn/uploadfile/2009/1106/thumb_1_220_318_20091106113231193.jpg"

清理题(基于爬虫题)

(实时更新)

第一题:

将task01.csv 和task03.csv合并到一个中
并且去除空值

第二题

筛选出评分大于7小于8.5的电影

以下在第二题的基础上进行

第三题

对筛选出的电影进行升序评分排序

第四题

每个分数出现多少次

第五题

计数------
是腾讯视频的多少部电影https://v.qq.com/x/cover/
是 中国电影网的多少部电影http://www.1905.com

第六题

在筛选的数据中播放量为空的数据有几条
播放量不为空的数据有几条

第七题

周星驰拍过那几部电影在这个分数段中

后续会将答案进行公布,谢谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值