python爬虫如何连接数据库_Python--（爬虫与数据库的连接）

最新推荐文章于 2023-01-13 16:35:35 发布

weixin_39980809

最新推荐文章于 2023-01-13 16:35:35 发布

阅读量1.5k

点赞数

文章标签： python爬虫如何连接数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39980809/article/details/111853352

版权

本文介绍了如何使用Python爬虫结合requests和BeautifulSoup库从两个小说阅读平台抓取小说内容，并生成TXT文件。虽然文中未涉及数据库操作，但提供了Python连接mongodb、MySQL和Sqlserver的代码示例。

摘要由CSDN通过智能技术生成

(每一天都是属于你的！)

Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些，在Python爬虫中包含很多基础部分知识，并且在项目中会提升你的成功感！加油！

我在工作之余时间，把Python的爬虫基础内容整理了一下，资料因为太多所以都放在QQ群内了，需要的可以来---607021567。

今天整理了一个两个网站的小说阅读平台的爬虫，将两个网站的小说可按自有的格式抓取下来自动生成txt文件。

项目介绍：

--Python爬虫

--模块：requests，BeautifulSoup，time

--分析：request模块作用于网站的连接与处理，BeautifulSoup作用于源码中的代码分析与抓取，time主要是在我们抓取的过程中加入时间限制(这个主要是应对有网站监控的，这里我们就不需要了)

因为这里没有涉及到数据库相关的操作，所以没有对数据库的相关详细内容，但是我会将Python与mongodb、MySQL、Sqlserver的连接方式的代码会附赠在下面。

一、网页分析：

首先步步分析网页内容：https://www.booktxt.net/6_6453/2529786.html，cookie信息--F12键。

这里面有很多广告，不过可以不用去理它们，首先获取到我们需要的网址：

1 #-*- coding:utf-8 -*-

2 importrequests3 from bs4 importBeautifulSoup4 importtime5

6 defproject(url,page):7 #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰

8 #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双

9 #url='https://www.booktxt.net/6_6453/2529786.html' #元尊

10 headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich87",11 "Host": "www.booktxt.net",12 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",13 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}14 r =requests.get(url,headers,timeout=30)15 h = r.content

这里主要使用request模块获取网址的源码，h--就是我们所获取的源码，你可以测试的时候print出来。

二、源码分析

我们这里直接在网页中来查看源码：网页中右键查看源码。

这里我们注意到文本的内容包含在

最低0.47元/天解锁文章

weixin_39980809

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。