python爬虫实例(1)

python爬虫实例

爬虫是一个很有意思的东西,可以从网络上爬取到想要的东西,那为什么用爬虫来爬取数据而不用人工来进行数据的下载呢?

首先爬虫爬取数据速度可比手工下载要快的多,而且爬虫爬取数据的速度的是根据网络速度来进行决定的,而且可以通过多线程,进行同时进行数据的爬取,实现更高效的数据爬取。

import parsel  #导入模块
import requests #导入requests模块,这个模块可以进行数据的get拉取
url = 'https://www.bbiquge.net/book/133312/56524592.html'  #利用url接受网站地址
rep = requests.get(url)   #利用requests模块的get去拉取数据rul里面的数据,
rep.encoding='gbk'  #将编码转换成gbk的 对中文字符而言,GBK 用两个字节存,UTF-8 用三个字节存
print(rep.text)    #输出rep接收的数据,并text的格式输出内容

接下来再进行

selector = parsel.Selector(rep.text)    #变成可解析的对象
title=selector.css('#main > h1::text').get()   #利用css方式进行get,并可以
title1=selector.xpath('/html/body/div[3]/h1/text()').get()   #利用xpath的方式进行get
print(title1)        #输出xpath方式查询转完格式的变量
print(title)         #输出css方式查询转完格式的变量
content_list=selector.css('#content::text').getall()   #get只是得到一条记录,想要得到一整页,全部就要用getall
content=''.join(content_list)  
print(content)   # 提取出个想要的字符来进行输出
with open(f'F:\新建文件夹\demo\os.txt',mode="w",encoding='utf-8') as f:    
    f.write(title)
    f.write('/n')
    f.write(content)  #将文件读取出来并且写入到文件中

就可以将爬取东西全部提取出来,进行输出了。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值