python爬虫如何连接数据库_Python--(爬虫与数据库的连接)

本文介绍了如何使用Python爬虫结合requests和BeautifulSoup库从两个小说阅读平台抓取小说内容,并生成TXT文件。虽然文中未涉及数据库操作,但提供了Python连接mongodb、MySQL和Sqlserver的代码示例。
摘要由CSDN通过智能技术生成

(每一天都是属于你的!)

Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些,在Python爬虫中包含很多基础部分知识,并且在项目中会提升你的成功感!加油!

我在工作之余时间,把Python的爬虫基础内容整理了一下,资料因为太多所以都放在QQ群内了,需要的可以来---607021567。

今天整理了一个两个网站的小说阅读平台的爬虫,将两个网站的小说可按自有的格式抓取下来自动生成txt文件。

项目介绍:

--Python爬虫

--模块:requests,BeautifulSoup,time

--分析:request模块作用于网站的连接与处理,BeautifulSoup作用于源码中的代码分析与抓取,time主要是在我们抓取的过程中加入时间限制(这个主要是应对有网站监控的,这里我们就不需要了)

因为这里没有涉及到数据库相关的操作,所以没有对数据库的相关详细内容,但是我会将Python与mongodb、MySQL、Sqlserver的连接方式的代码会附赠在下面。

一、网页分析:

首先步步分析网页内容:https://www.booktxt.net/6_6453/2529786.html,cookie信息--F12键。

这里面有很多广告,不过可以不用去理它们,首先获取到我们需要的网址:

1 #-*- coding:utf-8 -*-

2 importrequests3 from bs4 importBeautifulSoup4 importtime5

6 defproject(url,page):7 #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰

8 #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双

9 #url='https://www.booktxt.net/6_6453/2529786.html' #元尊

10 headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich87",11 "Host": "www.booktxt.net",12 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",13 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}14 r =requests.get(url,headers,timeout=30)15 h = r.content

这里主要使用request模块获取网址的源码,h--就是我们所获取的源码,你可以测试的时候print出来。

二、源码分析

我们这里直接在网页中来查看源码:网页中右键查看源码。

这里我们注意到文本的内容包含在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值