python从入门到放弃篇24(lxml.etree库,urllib.request库,xpath方法)爬取一刀999传奇页面,并将数据存储到本地计算机中。

今天,因为我们的课设的需要,所以,能者多劳嘛,我自学了爬虫,从此撑起了我们宿舍课设的重担。第一个数据采集(数据获取)。我看书研究了一波,感觉很不错,然后,就用一个小案例跟大家分享一波。

爬取当年的传奇一刀999游戏网页。

案例网址是:http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999

闲话不多说,上代码:
在这里插入图片描述

第一步,先导入lxmlrequest
第二步,设置请求报头,设置成浏览器,基本的爬虫对抗反爬手段。
将设置好的urlheaders传递给urlopen请求网页,将获取的源代码进行utf-8解码。
然后用xpath进行信息匹配。我们先观察一下网页结构,如下图:
在这里插入图片描述

我们可以从这张图片明显看出,需要的文本信息在标签a里面,因此,我们需要对标签定位
提取所有的a标签信息,所以有:
在这里插入图片描述
因为接下来输出的信息是列表,所以,我们需要对列表遍历,打印输出我们想要看见的信息,而不是列表,所以有:
在这里插入图片描述
我们先获取列表的长度,然后再遍历列表的长度,就能得到我们想要的结果了。

运行结果:
在这里插入图片描述
Oh!my雷迪嘎嘎!,这是什么鬼情况?经过仔细检查,发现这个网页的编码方式,不是“UTF-8"所以,我们得去查找它的编码方式,才能解码出来。
在这里插入图片描述

我们去找到标签head观察,发现里面有一个属性charset=gb2312,说明这是国标"gb2312"编码的网页。因此,就有:
在这里插入图片描述
变成:
在这里插入图片描述
将解码方式修改后,运行结果,如下图:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
当然,我们爬到这里,自然得留来纪念一下我们辛苦的成果。所以,要把输出结果存储到本地计算机中。所以有:
在这里插入图片描述
结果。。
在这里插入图片描述
Oh!my godness!我们又忽略了编码问题。。所以有:
在这里插入图片描述
但是,我们打开传奇.txt一看,又蒙了,什么鬼?what ghostwhat’s happened?标题没有了。。
在这里插入图片描述
所以,我们发现问题,
在这里插入图片描述
以"w+"覆盖的写模式,导致前面写入的数据丢失。因此,我们后面的文件模式,选择追加模式
所以有:
首个文件,我们采用写入模式,其余文件采用追加模式"a"写入,就不会覆盖式写入,人为造成数据丢失。
在这里插入图片描述
结果,very nice!!搞定!!
在这里插入图片描述
哇!太爽了鸭!我第一次自己学会了爬虫,看见这么多文本数据,感动得不要不要的,真过瘾。从问题需求,到数据采集,再到网页分析,最后采集数据,保存到本地计算机上。
学习是一个循序渐进的过程,慢慢来,不能急,我看书研究了几个小时,就能爬取文本数据了。我认为我很笨都能学会,聪明如你也一定能行的,相信自己,哦,哦,哦,哦。

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不羁_神话

感谢支持,欢迎交流。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值