我的第一个爬虫程序

最新推荐文章于 2023-11-05 18:19:25 发布

梦田（wanao）

最新推荐文章于 2023-11-05 18:19:25 发布

阅读量646

点赞数

本文链接：https://blog.csdn.net/qq_45421658/article/details/97172196

版权

本文介绍了作者初次尝试Python爬虫，选择纵横中文网的小说《神魔武帝》作为目标，通过requests和xpath进行网页抓取和解析。在解析过程中遇到并解决了章节内容保存时出现的异常问题，最终成功将小说内容存入文件。总结中强调了编程实践、思维开阔和多尝试的重要性。

摘要由CSDN通过智能技术生成

我的第一个爬虫程序

爬取“纵横中文网”里的小说

爬取“纵横中文网”里的小说

最近开始迷上Python了，当然，最让我着迷的还是它的代码风格，用一句话形容：干净利索脆。
由于我有一些VB基础，现在学Python感觉特别的轻松。
必须要强调一句：兴趣是最好的老师。
既然学写爬虫，先给自己定一个小目标：爬一本小说好了。
从“纵横中文网”里找了部章节少的《神魔武帝》练手，
别看就简简单单爬取一部小说，中间还是闹了不少“妖娥子”。

1、万年不变的开头

肯定是以import开始了，费话太多了，看代码吧！

import requests
from lxml import etree
headers = {
   
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36"
}

我使用的是requests库，当然urllib库也一样的，萝卜咸菜各有所爱。
差点忘了说，我使用的是Python3.7版本。
由于我喜欢用xpath来解析，所以就加载了lxml库。至于BS4，pyquery同样那句话：萝卜咸菜各有所爱
一个标准爬虫，还是在爬取网页时加上headers吧！

url = 'http://book.zongheng.com/showchapter/845503.html'
response = requests.get(url,headers=headers)
html = etree.HTML(response.content)

同样是标准的写法&#

最低0.47元/天解锁文章

梦田（wanao）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫