python爬虫快速入门

MtoSlc

已于 2023-12-04 17:44:58 修改

阅读量320

点赞数

分类专栏： python 文章标签： python 爬虫开发语言 mysql 数据库 excel

于 2023-06-27 17:36:44 首次发布

本文链接：https://blog.csdn.net/lsgzn/article/details/131421918

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文介绍了Python中用于网络请求的urllib、requests库以及自动化测试工具selenium。在解析方面，讲解了lxml和BeautifulSoup库的使用。同时，提到了正则表达式re在数据提取中的作用。文章还涵盖了数据存储的方法，包括文件写入、pandasDataFrame和pymysql数据库操作。最后，讨论了协程和Scrapy框架在多任务异步爬虫中的应用。

摘要由CSDN通过智能技术生成

请求库

①urllib

import urllib.parse 
import urllib.request #导入urllib库 安装urllib: pip3 install urllib
url = 'https://www.baidu.com/s' #请求地址
params = {
	'wd':'猛蛇'
}
#制定请求头，伪装成浏览器
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
}
#cookie是服务器记录在浏览器上的一个字符串，写入到一个文件中。
#1.可以直接在浏览器抓包工具上复制。2.通过requests.session()保持会话。
#post请求方式
#requests = urllib.request.Request(url = url,data = params,headers = headers)
#quote方法适用单个参数，将汉字转换成unicode编码的格式。 例如：params = urllib.parse.quote('猛蛇') --->url = url + params
#urlencode方法适用于多个参数,将汉字转换成unicode编码
params = urllib.parse.urlencode(params)
url = url + params
requests = urllib.request.Request(url=url,headers= headers)#制定请求头,get请求方式
response = urllib.request.urlopen(requests)  #返回存储网页数据的对象
html = response.read().decode('utf-8') #read()以字节形式读取二进制 decode('utf-8')以utf-8编码形式解码

②requests

import requests #导入requests库 安装requests: pip3 install requests
url = 'https://www.baidu.com/s'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'
}
params = {
	'wd':'猛蛇'
}
#post请求
#form data
#response = requests.post(url = url,data=params ,headers = headers)
#request payload
#response = requests.post(url = url,json=params ,headers = headers)
response = requests.get(url = url,params=params ,headers = headers) #get请求
html = response.txet  #txet属性：获取响应文本数据   content属性：获取响应二进制数据  
#json=response.json()
#json = json.loads(html) #反序列化
#jsonp格式xxx({}) 需要去掉xxx()-->html.replace('xxx(','')[:-1]

③selenium

from selenium import webdriver
url = 'https://www.baidu.com'
path = './浏览器驱动路径'
browser = webdriver.Chrome(path) 
browser .get(url)

解析库

①lxml

#xpath使用场景：用来解析常规HTML结构
#导入lxml库 安装lxml: pip3 install lxml
from lxml import etree 
#使用etree.HTML()解析内容
html_parse = etree.HTML(html) 
#xpath获取指定节点数据
titles = html_parse.xpath('xpath路径')  #返回list
if titles: #判断list是否为空
	for title in titles:
		print(title)
else:
	print('null')

②bs4

#使用场景：解析xml、svg
#导入bs4 库 安装bs4: pip3 install bs4 
from bs4 import BeatifulSoup
#lxml是第三方解析器  html.parser是Python内置解析器
html_parse = BeatifulSoup(html,'lxml') 
#find() find_all()  select()  get_text()获取对象内容
title = html_parse.find('title').get_text()

③re

#使用场景：获取HTML中的JavaScript代码中的一部分代码或字符串
#导入re 库 安装re: pip3 install re  
import re 
#findall('pattern',html)中pattern是正则表达式  html是被抽取数据的内容
html_parse = re.findall('pattern',html) #正则表达式查找

存储数据

①

#使用with open() as f: 自动打开或创建文件读写追加数据，完毕后自动关闭退出
#mode指定模式 'w' 'r'读 'a'追加  encoding指定打开文件编码格式
with open('./demo/abc.txt',mode = 'w',encoding = 'utf-8') as f:
	#write()写进  read()读
    f.write(content)

②pandas

#导入pandas库 安装pandas: pip3 install pandas  
import pandas
#DataFrame是二维矩阵 自定义column = ['a','b','c']列名值  自定义index = ['aa','bb','cc']索引值
#to_excel()把数据存储.xlsx文件  index = False 不添加索引值 index默认为True 自动添加索引值
pandas.DataFrame(content,column = ['a','b','c']).to_excel('./demo/abc.xlsx',index = False)

③pymysql

import pymysql
conn = pymysql.connect(host:'127.0.0.0',post:'3306',user:'root',password:'xxx',database:'demo',charset = 'utf8') #创建mysql连接对象
cursor = conn.cursor() #创建游标
cursor.execute("""
insert into test (name,age,sex) values('张三',13,'nan')
""") #执行插入数据操作
cursor.close() #关闭游标
conn.close() #关闭数据库

多任务异步爬虫

进程：是内存资源最小分配单位，进程（process）之间是隔离的。
线程：是cpu调用执行任务的最小单位，同一进程的多个线程（thread）之间是不隔离的。
协程：是一种用户态的轻量级线程，协程的调度完全由用户控制，一个线程可以拥有多个协程，协程也可以被挂起（suspend），挂起时将CPU的执行权让出，允许其他协程运行。

#协程例子
import asyncio
import aiohttp
from lxml import etree

#完成一个任务函数
async def download_one(url):
    async with aiohttp.ClientSession() as session: #requests.session()
        async with session.get(url) as resp:
            page_source = await resp.text() #挂起等待页面返回数据
            tree = etree.HTML(page_source) #解析HTML页面
            print(tree.xpath('//table//text()'))
            print('*'*60)

async def main():
    tasks = []
    for i in range(1,6):
        url = f'https://www.17k.com/all/book/2_0_0_0_0_0_0_0_{i}.html'
        task = asyncio.create_task(coro=download_one(url))
        tasks.append(task)
    await asyncio.wait(tasks) #等待所有任务完成

if __name__ == "__main__":
    # asyncio.run(main()) #异步运行
    event_loop = asyncio.get_event_loop()
    event_loop.run_until_complete(main())

Scrapy框架爬虫

Scrapy框架工作流程：
在这里插入图片描述

使用版本：pip install scrapy2.5.1 scrapy-redis（0.7.2）
升级twisted： pip install --upgrade twisted22.4.0
调正OpenSSL版本
1.创建项目
scrapy startproject 项目名
2.进入项目目录
cd 项目名
3.生成spider
scrapy genspider 爬虫名字网络域名
4.调正spider
给出start_urls
如何解析数据
5.调正setting核心配置文件
USER_AGENT=‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36’ #模拟浏览器
ROBOTSTXT_OBEY=False #不遵循robot协议
DOWNLOAD_DELAY=3 #延时3秒
#调整日志记录级别：
LOG_LEVEL=‘WARNING’
6.运行scrapy程序（切换到项目目录下执行）
scrapy crawl 爬虫名