小弟这几天在玩python,比较基础,适合初学者来玩,小弟不是什么大佬写不出啥神话代码,只能靠自己的理解一步一步的敲,本个例子只是用正则表达式做出来的,没有利用框架等,如果哪位大神有兴趣和python方面知识,可以联系我,还请多多指教
爬虫题
题目1
爬取这个网址(http://v.qq.com/x/list/movie?area=100024&offset=0&cate=10001)共70页
以下字段:
电影名称,电影评分,电影主演,电影播放量,电影信息(电影图片下方文字),电影url,电影照片url
=生成task01.csv,顺序按照写的顺序
格式
title,actor,bor,rate,info,url,img
玛格丽特的春天,艾伦/王自健/田亮/胡杏儿,6978万,7.3,艾伦王自健 萌贱撩妹,https://v.qq.com/x/cover/sckfyjuncrzkyvq.html,"//i.gtimg.cn/qqlive/images/20150608/pic_v.png"" r-lazyload=""//puui.qpic.cn/vcover_vt_pic/0/sckfyjuncrzkyvq1487313815/220"
题目二
爬取网站(http://movie.mtime.com/151657/)
爬取内容字段 电影名称,时长,类型片,上映时间,导演,公司
=生成task02.csv,顺序按照写的顺序
格式
加勒比海盗5:死无对证,129分钟,动作/冒险/奇幻,2017年5月26日,乔阿吉姆·罗恩尼/艾斯彭·山德伯格,美国,华特·迪士尼电影工作室
题目三
爬取网站(http://vip.1905.com/list/p1o6.shtml)的100页信息
爬取字段 电影名称,演员,评分,电影信息,url,图片url
=生成task03.csv,顺序按照写的顺序
格式
title,actor,rate,info,url,img
捕蛇少年,王宏伟 / 翟小光 / 庄田田,8.2,四少年智斗日伪军,http://www.1905.com/mdb/film/63746,"http://static.m1905.cn/images/vip/cnc/lazyImg.gif"" data-lazysrc=""http://image11.m1905.cn/uploadfile/2009/1106/thumb_1_220_318_20091106113231193.jpg"
清理题(基于爬虫题)
(实时更新)
第一题:
将task01.csv 和task03.csv合并到一个中
并且去除空值
第二题
筛选出评分大于7小于8.5的电影
以下在第二题的基础上进行
第三题
对筛选出的电影进行升序评分排序
第四题
每个分数出现多少次
第五题
计数------
是腾讯视频的多少部电影https://v.qq.com/x/cover/
是 中国电影网的多少部电影http://www.1905.com
第六题
在筛选的数据中播放量为空的数据有几条
播放量不为空的数据有几条
第七题
周星驰拍过那几部电影在这个分数段中
后续会将答案进行公布,谢谢