一个最简单的入门爬虫，带你进“网”

最新推荐文章于 2023-05-31 14:15:00 发布

python爬虫学习

最新推荐文章于 2023-05-31 14:15:00 发布

阅读量271

点赞数

分类专栏： python基础 python爬虫 python入门 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39363022/article/details/88138590

版权

python 同时被 3 个专栏收录

143 篇文章 6 订阅

订阅专栏

135 篇文章 2 订阅

订阅专栏

132 篇文章 1 订阅

订阅专栏

前言

本节为大家带来一个最简单的Python爬虫项目，相信大家可以看懂的。从0到1的过程详细写出来，希望能帮助到大家

小说网站的基本结构

首页（总目录）→分类→小说目录页→小说各章节；

与网站的交互

通常都是用户通过浏览器（当IE）访问网站（网络上的服务器）。

浏览器：网址(href)、请求(requests)→网站服务器：响应(response)给浏览器→浏览器：缓存并呈现回复的内容。
在这里插入图片描述
添加第三方模块

第三方模块添加工具pip必须在安装python3.5时有勾选安装。

编辑或新建C:Userswwuhnwu01pippip.ini：
在这里插入图片描述
pycharm→文件→setting→project interpreter→pip→右边加号+→manage repositories→右边加号+→添加第三方模块的镜像服务器http://pypi.douban.com/和http://pypi.douban.com/simple

一个简单的网络爬虫

新建项目

设置项目编译器

基本的思路：

进入一个小说的目录页，请求到目录（包括各章节的href和章节标题）的内容，提取到全部的href，再通过各href请求到各网页的内容，经过数据清洗和适当的回到，写入到一个文本文件

代码
在这里插入图片描述

以上代码运行后，即可把整部小说的内容写入文本文件。

不同的网站，内面内容的写法会有差别，在提取数据和清洗数据时要做相应调整变化。

一些网站会禁止爬虫，当你尝试爬取网站资源时，一些网站会有反爬策略，将你的IP加入黑名单，当你爬取或访问时，页面会响应为：“HTTP Error 403: Forbidden错误”。

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

**加粗样式**

python爬虫学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。