python爬虫实例
爬虫是一个很有意思的东西,可以从网络上爬取到想要的东西,那为什么用爬虫来爬取数据而不用人工来进行数据的下载呢?
首先爬虫爬取数据速度可比手工下载要快的多,而且爬虫爬取数据的速度的是根据网络速度来进行决定的,而且可以通过多线程,进行同时进行数据的爬取,实现更高效的数据爬取。
import parsel #导入模块
import requests #导入requests模块,这个模块可以进行数据的get拉取
url = 'https://www.bbiquge.net/book/133312/56524592.html' #利用url接受网站地址
rep = requests.get(url) #利用requests模块的get去拉取数据rul里面的数据,
rep.encoding='gbk' #将编码转换成gbk的 对中文字符而言,GBK 用两个字节存,UTF-8 用三个字节存
print(rep.text) #输出rep接收的数据,并text的格式输出内容
接下来再进行
selector = parsel.Selector(rep.text) #变成可解析的对象
title=selector.css('#main > h1::text').get() #利用css方式进行get,并可以
title1=selector.xpath('/html/body/div[3]/h1/text()').get() #利用xpath的方式进行get
print(title1) #输出xpath方式查询转完格式的变量
print(title) #输出css方式查询转完格式的变量
content_list=selector.css('#content::text').getall() #get只是得到一条记录,想要得到一整页,全部就要用getall
content=''.join(content_list)
print(content) # 提取出个想要的字符来进行输出
with open(f'F:\新建文件夹\demo\os.txt',mode="w",encoding='utf-8') as f:
f.write(title)
f.write('/n')
f.write(content) #将文件读取出来并且写入到文件中
就可以将爬取东西全部提取出来,进行输出了。