【零基础学爬虫】学Python的第一周,自己编写用Python爬取vip小说付费章节,实现小说自由!

之前因为想研究怎么让esp8266上校园网,折腾半天,请教大佬后,说要先学爬虫,就能知道怎么模拟登录上网了。大佬学的是c#,我学的是python,于是就开始学习了python爬虫,这是学习中觉得好玩的事,也遇到了不少困难。

完整源代码已打包,文末可免费领取

一、先上效果图

在这里插入图片描述
在这里插入图片描述

这本书一共两千四百多章,一开始基本上爬到第1章(前面还有广告恰饭章)就报

在这里插入图片描述

Remoto end closed connection without response 的错,估计被发现是爬虫了,弄了半天,总算爬取成功。

二、bs4学习

1、原理

bs4进行数据解析
bs4数据解析原理
1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据解析
 环境安装
# pip install bs4
# pip install lxml
#如何实例化BeautifulSoup对象
from bs4 import BeautifulSoup

2、运用

两种操作方式,我们一般用第二种爬取网页

from bs4 import BeautifulSoup
#1.将本地的html文档中的数据加载到对象中 fp = open("./baidu.html",'r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml')#创建一个lxml解析器
# print(soup)
#2.将互联网上获取的页面源码加载到该对象中
#page_text = response.text
#soup = BeatifulSoup(page_text,'lxml')

在这里插入图片描述

3、数据解析

#提供用于数据解析
#print(soup.a)#soup.tagName 返回的是html中第一次出现的tagName标签
#print(soup.div)
#print(soup.find('div'))   #等同于soup,div

4、属性定位

 #属性定位
#print(soup.find('div',class_= "head_wrapper"))
#print(soup.find_all('a'))# 返回符合要求的所有标签
#select  select('某种选择器(id,class,标签,,,选择器)')
#print(soup.select('.head_wrapper'))
#print(soup.select(".head_wrapper > "))
#soup.select('.tang > ul > li > a')[0] #层级选择
#soup.select('.tang > ul  a')[0] #跨层选择 空格表示多个层级

5、获取标签之间的文本数据

#获取标签之间的文本数据
print(soup.select('a')[0].string)   # 只可以获取该标签下面直系的文本内容
print(soup.select('a')[0].get_text())#text/get_text()可以获取某一个标签中所有的文本内容
print(soup.select('a')[0].text)

6、获取标签中的属性值

#获取标签中的属性值
#print(soup.select('.tang > ul > li > a')[0]['href'])

三、开始爬小说

一般步骤

  1. 聚焦爬虫 爬取页面中指定的页面内容
  2. 编码流程
  3. 指定URL
  4. 发起请求
  5. 获取响应数据
  6. 数据解析
  7. 持久化存储

在此之前,先要

pip instal requrests
import requrests

1、获取url

首先我选用笔趣阁的《凡人修仙传》作为爬取对象

url = 'https://www.qbiqu.com/7_7365/'

2 、UA伪装

然后,正常的ua伪装(User-Agent)用户代理,里面包含操作系统版本号和使用的浏览器,来伪装成一个正常的请求。按键盘上的F12 进入网站的开发者模式得到。(找不到可以尝试刷新页面)

#UA : User_Agent(请求载体的身份标识)
#UA检测 门户网站的服务器会检测对应请求的载体身份标识,如果监测到的载体身份标识为某一款浏览器
#说明该请求是一个正常的请求。但是如果检测到的载体身份标识不是基于某一款浏览器则表示该请求
#为不正常的请求(爬虫),则服务器就很可能拒绝该次请求

在这里插入图片描述

#UA伪装: 将对应的User-Agent封装到一个字典中
    headers = {
   
        "User-Agent":'Mozilla/5.0 (Wind
  • 2
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
基于Python Scrapy实现的网易云音乐music163数据爬取爬虫系统 含全部源代码 基于Scrapy框架的网易云音乐爬虫,大致爬虫流程如下: - 以歌手页为索引页,抓取到全部歌手; - 从全部歌手页抓取到全部专辑; - 通过所有专辑抓取到所有歌曲; - 最后抓取歌曲的精彩评论。 数据保存到`Mongodb`数据库,保存歌曲的歌手,歌名,专辑,和热评的作者,赞数,以及作者头像url。 抓取评论者的头像url,是因为如果大家喜欢,可以将他做web端。 ### 运行: ``` $ scrapy crawl music ``` #!/usr/bin/python #-*-coding:utf-8-*- import time from pprint import pprint from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request from woaidu_crawler.items import WoaiduCrawlerItem from woaidu_crawler.utils.select_result import list_first_item,strip_null,deduplication,clean_url class WoaiduSpider(BaseSpider): name = "woaidu" start_urls = ( 'http://www.woaidu.org/sitemap_1.html', ) def parse(self,response): response_selector = HtmlXPathSelector(response) next_link = list_first_item(response_selector.select(u'//div[@class="k2"]/div/a[text()="下一页"]/@href').extract()) if next_link: next_link = clean_url(response.url,next_link,response.encoding) yield Request(url=next_link, callback=self.parse) for detail_link in response_selector.select(u'//div[contains(@class,"sousuolist")]/a/@href').extract(): if detail_link: detail_link = clean_url(response.url,detail_link,response.encoding) yield Request(url=detail_link, callback=self.parse_detail) def parse_detail(self, response): woaidu_item = WoaiduCrawlerItem() response_selector = HtmlXPathSelector(response) woaidu_item['book_name'] = list_first_item(response_selector.select('//div[@class="zizida"][1]/text()').extract()) woaidu_item['author'] = [list_first_item(response_selector.select('//div[@class="xiaoxiao"][1]/text()').extract())[5:].strip(),] woaidu_item['book_description'] = list_first_item(response_selector.select('//div[@class="lili"][1]/text()').extract()).strip() woaidu_item['book_covor_image_url'] = list

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值