前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、requests什么?
requests是一个python模拟浏览器对服务器发起请求的一个库
二、使用步骤
1.引入库
代码如下:
import requests from lxml import etree
2.抓取网页源代码
代码如下:
for m in range(1,4): list_book=[] url=f"https://item.kongfz.com/book/72108580_0_0_{m}.html" headers={ "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.1311 SLBChan/11", "Cookie": "utm_source=101002001000; kfz_uuid=079af831-512f-46c6-84e8-f3241562d06c; PHPSESSID=j89394a0vuopftviucbqlpb6u0; shoppingCartSessionId=742be764759466b29a6baac66f451ae8; reciever_area=1006000000; kfz_trace=079af831-512f-46c6-84e8-f3241562d06c|0|43c848302d9b02b7|101002001000; acw_tc=276077c217166186645673482e17fb9f825350e5872c1162d5a2e6be34ee35; kfz-tid=93d3d34750b31ed25ba24803bedaa26f", } resp=requests.get(url=url,headers=headers).text # print(resp) object=etree.HTML(resp) book=object.xpath("//div[@id='detail-list-con']//ul/li//text()") for i in book: i = i.strip().replace("\n","") if i==None: continue else: list_book.append(i) list=[] for i in list_book: if i=='': continue else: list.append(i) print(list)
该处使用的url网络请求的数据。
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了requests的使用和一些提取源代码数据的方法,常用的re,xpath,bs4,文章只用了xpath。