python爬虫快速入门

本文介绍了Python中用于网络请求的urllib、requests库以及自动化测试工具selenium。在解析方面,讲解了lxml和BeautifulSoup库的使用。同时,提到了正则表达式re在数据提取中的作用。文章还涵盖了数据存储的方法,包括文件写入、pandasDataFrame和pymysql数据库操作。最后,讨论了协程和Scrapy框架在多任务异步爬虫中的应用。
摘要由CSDN通过智能技术生成

请求库

①urllib
import urllib.parse 
import urllib.request #导入urllib库 安装urllib: pip3 install urllib
url = 'https://www.baidu.com/s' #请求地址
params = {
	'wd':'猛蛇'
}
#制定请求头,伪装成浏览器
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
}
#cookie是服务器记录在浏览器上的一个字符串,写入到一个文件中。
#1.可以直接在浏览器抓包工具上复制。2.通过requests.session()保持会话。
#post请求方式
#requests = urllib.request.Request(url = url,data = params,headers = headers)
#quote方法适用单个参数,将汉字转换成unicode编码的格式。 例如:params = urllib.parse.quote('猛蛇') --->url = url + params
#urlencode方法适用于多个参数,将汉字转换成unicode编码
params = urllib.parse.urlencode(params)
url = url + params
requests = urllib.request.Request(url=url,headers= headers)#制定请求头,get请求方式
response = urllib.request.urlopen(requests)  #返回存储网页数据的对象
html = response.read().decode('utf-8') #read()以字节形式读取二进制 decode('utf-8')以utf-8编码形式解码
②requests
import requests #导入requests库 安装requests: pip3 install requests
url = 'https://www.baidu.com/s'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
}
params = {
	'wd':'猛蛇'
}
#post请求
#form data
#response = requests.post(url = url,data=params ,headers = headers)
#request payload
#response = requests.post(url = url,json=params ,headers = headers)
response = requests.get(url = url,params=params ,headers = headers) #get请求
html = response.txet  #txet属性:获取响应文本数据   content属性:获取响应二进制数据  
#json=response.json()
#json = json.loads(html) #反序列化
#jsonp格式xxx({}) 需要去掉xxx()-->html.replace('xxx(','')[:-1]
③selenium
from selenium import webdriver
url = 'https://www.baidu.com'
path = './浏览器驱动路径'
browser = webdriver.Chrome(path) 
browser .get(url)

解析库

①lxml
#xpath使用场景:用来解析常规HTML结构
#导入lxml库 安装lxml: pip3 install lxml
from lxml import etree 
#使用etree.HTML()解析内容
html_parse = etree.HTML(html) 
#xpath获取指定节点数据
titles = html_parse.xpath('xpath路径')  #返回list
if titles: #判断list是否为空
	for title in titles:
		print(title)
else:
	print('null')

②bs4
#使用场景:解析xml、svg
#导入bs4 库 安装bs4: pip3 install bs4 
from bs4 import BeatifulSoup
#lxml是第三方解析器  html.parser是Python内置解析器
html_parse = BeatifulSoup(html,'lxml') 
#find() find_all()  select()  get_text()获取对象内容
title = html_parse.find('title').get_text()

③re
#使用场景:获取HTML中的JavaScript代码中的一部分代码或字符串
#导入re 库 安装re: pip3 install re  
import re 
#findall('pattern',html)中pattern是正则表达式  html是被抽取数据的内容
html_parse = re.findall('pattern',html) #正则表达式查找

存储数据

#使用with open() as f: 自动打开或创建文件读写追加数据,完毕后自动关闭退出
#mode指定模式 'w' 'r'读 'a'追加  encoding指定打开文件编码格式
with open('./demo/abc.txt',mode = 'w',encoding = 'utf-8') as f:
	#write()写进  read()读
    f.write(content)
②pandas
#导入pandas库 安装pandas: pip3 install pandas  
import pandas
#DataFrame是二维矩阵 自定义column = ['a','b','c']列名值  自定义index = ['aa','bb','cc']索引值
#to_excel()把数据存储.xlsx文件  index = False 不添加索引值 index默认为True 自动添加索引值
pandas.DataFrame(content,column = ['a','b','c']).to_excel('./demo/abc.xlsx',index = False) 
③pymysql
import pymysql
conn = pymysql.connect(host:'127.0.0.0',post:'3306',user:'root',password:'xxx',database:'demo',charset = 'utf8') #创建mysql连接对象
cursor = conn.cursor() #创建游标
cursor.execute("""
insert into test (name,age,sex) values('张三',13,'nan')
""") #执行插入数据操作
cursor.close() #关闭游标
conn.close() #关闭数据库
多任务异步爬虫

进程:是内存资源最小分配单位,进程(process)之间是隔离的。
线程:是cpu调用执行任务的最小单位,同一进程的多个线程(thread)之间是不隔离的。
协程:是一种用户态的轻量级线程,协程的调度完全由用户控制,一个线程可以拥有多个协程,协程也可以被挂起(suspend),挂起时将CPU的执行权让出,允许其他协程运行。

#协程例子
import asyncio
import aiohttp
from lxml import etree

#完成一个任务函数
async def download_one(url):
    async with aiohttp.ClientSession() as session: #requests.session()
        async with session.get(url) as resp:
            page_source = await resp.text() #挂起等待页面返回数据
            tree = etree.HTML(page_source) #解析HTML页面
            print(tree.xpath('//table//text()'))
            print('*'*60)

async def main():
    tasks = []
    for i in range(1,6):
        url = f'https://www.17k.com/all/book/2_0_0_0_0_0_0_0_{i}.html'
        task = asyncio.create_task(coro=download_one(url))
        tasks.append(task)
    await asyncio.wait(tasks) #等待所有任务完成

if __name__ == "__main__":
    # asyncio.run(main()) #异步运行
    event_loop = asyncio.get_event_loop()
    event_loop.run_until_complete(main())
Scrapy框架爬虫

Scrapy框架工作流程:
在这里插入图片描述

使用版本:pip install scrapy2.5.1 scrapy-redis(0.7.2)
升级twisted: pip install --upgrade twisted
22.4.0
调正OpenSSL版本
1.创建项目
scrapy startproject 项目名
2.进入项目目录
cd 项目名
3.生成spider
scrapy genspider 爬虫名字 网络域名
4.调正spider
给出start_urls
如何解析数据
5.调正setting核心配置文件
USER_AGENT=‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36’ #模拟浏览器
ROBOTSTXT_OBEY=False #不遵循robot协议
DOWNLOAD_DELAY=3 #延时3秒
#调整日志记录级别:
LOG_LEVEL=‘WARNING’
6.运行scrapy程序(切换到项目目录下执行)
scrapy crawl 爬虫名

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MtoSlc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值