(每一天都是属于你的!)
Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些,在Python爬虫中包含很多基础部分知识,并且在项目中会提升你的成功感!加油!
我在工作之余时间,把Python的爬虫基础内容整理了一下,资料因为太多所以都放在QQ群内了,需要的可以来---607021567。
今天整理了一个两个网站的小说阅读平台的爬虫,将两个网站的小说可按自有的格式抓取下来自动生成txt文件。
项目介绍:
--Python爬虫
--模块:requests,BeautifulSoup,time
--分析:request模块作用于网站的连接与处理,BeautifulSoup作用于源码中的代码分析与抓取,time主要是在我们抓取的过程中加入时间限制(这个主要是应对有网站监控的,这里我们就不需要了)
因为这里没有涉及到数据库相关的操作,所以没有对数据库的相关详细内容,但是我会将Python与mongodb、MySQL、Sqlserver的连接方式的代码会附赠在下面。
一、网页分析:
首先步步分析网页内容:https://www.booktxt.net/6_6453/2529786.html,cookie信息--F12键。
这里面有很多广告,不过可以不用去理它们,首先获取到我们需要的网址:
1 #-*- coding:utf-8 -*-
2 importrequests3 from bs4 importBeautifulSoup4 importtime5
6 defproject(url,page):7 #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰
8 #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双
9 #url='https://www.booktxt.net/6_6453/2529786.html' #元尊
10 headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich87",11 "Host": "www.booktxt.net",12 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",13 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}14 r =requests.get(url,headers,timeout=30)15 h = r.content
这里主要使用request模块获取网址的源码,h--就是我们所获取的源码,你可以测试的时候print出来。
二、源码分析
我们这里直接在网页中来查看源码:网页中右键查看源码。
这里我们注意到文本的内容包含在