python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999传奇页面，并将数据存储到本地计算机中。

最新推荐文章于 2023-06-28 10:02:18 发布

不羁_神话

最新推荐文章于 2023-06-28 10:02:18 发布

阅读量437

点赞数 5

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_43408020/article/details/107405695

版权

python爬虫专栏收录该内容

28 篇文章 0 订阅

订阅专栏

今天，因为我们的课设的需要，所以，能者多劳嘛，我自学了爬虫，从此撑起了我们宿舍课设的重担。第一个数据采集（数据获取）。我看书研究了一波，感觉很不错，然后，就用一个小案例跟大家分享一波。

爬取当年的传奇一刀999游戏网页。

案例网址是：http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999

闲话不多说，上代码：
在这里插入图片描述

第一步，先导入lxml，request库
第二步，设置请求报头，设置成浏览器，基本的爬虫对抗反爬手段。
将设置好的url和headers传递给urlopen请求网页，将获取的源代码进行utf-8解码。
然后用xpath进行信息匹配。我们先观察一下网页结构，如下图：
在这里插入图片描述

我们可以从这张图片明显看出，需要的文本信息在标签a里面，因此，我们需要对标签定位，
提取所有的a标签信息，所以有：
在这里插入图片描述
因为接下来输出的信息是列表，所以，我们需要对列表遍历，打印输出我们想要看见的信息，而不是列表，所以有：

我们先获取列表的长度，然后再遍历列表的长度，就能得到我们想要的结果了。

运行结果：
在这里插入图片描述
Oh！my雷迪嘎嘎！，这是什么鬼情况？经过仔细检查，发现这个网页的编码方式，不是“UTF-8"所以，我们得去查找它的编码方式，才能解码出来。

我们去找到标签head观察，发现里面有一个属性charset=gb2312,说明这是国标"gb2312"编码的网页。因此，就有：
在这里插入图片描述
变成：

将解码方式修改后，运行结果，如下图：

当然，我们爬到这里，自然得留来纪念一下我们辛苦的成果。所以，要把输出结果存储到本地计算机中。所以有：

结果。。

Oh！my godness!我们又忽略了编码问题。。所以有：
在这里插入图片描述
但是，我们打开传奇.txt一看，又蒙了，什么鬼？what ghost？what’s happened?标题没有了。。

所以，我们发现问题，

以"w+"覆盖的写模式，导致前面写入的数据丢失。因此，我们后面的文件模式，选择追加模式。
所以有：
首个文件，我们采用写入模式，其余文件采用追加模式"a"写入，就不会覆盖式写入，人为造成数据丢失。
在这里插入图片描述
结果，very nice！！搞定！！

哇！太爽了鸭！我第一次自己学会了爬虫，看见这么多文本数据，感动得不要不要的，真过瘾。从问题需求，到数据采集，再到网页分析，最后采集数据，保存到本地计算机上。
学习是一个循序渐进的过程，慢慢来，不能急，我看书研究了几个小时，就能爬取文本数据了。我认为我很笨都能学会，聪明如你也一定能行的，相信自己，哦，哦，哦，哦。

最后，感谢大家前来观看鄙人的文章，文中或有诸多不妥之处，还望指出和海涵。

不羁_神话

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
python从入门到放弃篇24（lxml.etree库，urllib.request库，xpath方法）爬取一刀999传奇页面，并将数据存储到本地计算机中。

今天，因为我们的课设的需要，所以，能者多劳嘛，我自学了爬虫，从此撑起了我们宿舍课设的重担。第一个数据采集（数据获取）。我看书研究了一波，感觉很不错，然后，就用一个小案例跟大家分享一波。爬取当年的传奇一刀999游戏网页。案例网址是：http://tg2.898play.com/z/kf/50/06/?pyx_url=tg-kj7-cq-yd999闲话不多说，上代码：第一步，先导入lxml，request库第二步，设置请求报头，设置成浏览器，基本的爬虫对抗反爬手段。将设置好的url和headers
复制链接

扫一扫