- 声明
首先声明下这是我在csdn上发表的第一篇关于编程的文章,水平一般,技术含量也不高,所以想看骚操作的请尽快关闭,省得浪费宝贵的时间与生命。
-
环境介绍
这是一篇关于python爬虫文章,使用的是anaconda_python_3.7版本,编辑器为pycharm,浏览器为谷歌chrome,涉及到的第三方库不多,写过爬虫的应该都能看懂。 -
查看page_source
爬取top100的电影信息。首先用浏览器打开需要爬取数据的网页https://maoyan.com/board/4,观察页面,可以看见电影名,主演,上映时间点击图片,跳转到一个新的界面,可以查看该电影的详细信息
这下清楚了网页的布置,接下来查看我们需要的信息被分别放置在了源码的哪些标签内,右键点击检查
可以看霸王别姬的电影名,跳转链接被放置在了一个class为name的p标签内,主演信息放置在class为name的p标签内,上映时间放置在了class为releasetime标签内,三个标签均为兄弟标签。
仔细观察这个href超链接属性有点奇怪,没有协议没有域名,点击再次跳转到霸王别姬的详情页面。这应该是html一种语法形式,会自动在前面添加主界面的url,组成一个可以跳转的url。是真的nice
收缩标签可以看到关于霸王别姬的电影信息的所有标签都放置在了一个名为dd标签下,其他兄弟类dd标签也放置了其位置对应的电影信息
这就前10名电影信息的分布,但我们要爬取的是top100,点击第二页发现url发生了变化,末尾的0变成了10,第三页变成了20,那么我们可以通过修改末尾值的方法来完成网页跳转 -
要睡觉了,我简单点写
我的思路是通过css标签选择器,选取出我们需要的标签,再使用正则表达式提取关键信息,再使用迭代的方法获取存放电影信息的10个url,再保存再一个txt的文件内
最后将值迭代出来转换成整个的字符串使用with as方法写入文件中
-
特么
果然这种东西只能找时间多得点写