抓取孔夫子旧书网

最新推荐文章于 2025-05-01 23:36:42 发布

July August

最新推荐文章于 2025-05-01 23:36:42 发布

阅读量1.8k

点赞数 28

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_73829889/article/details/139235415

版权

爬虫专栏收录该内容

1 篇文章

订阅专栏

文章目录

前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、requests什么？

requests是一个python模拟浏览器对服务器发起请求的一个库

二、使用步骤

1.引入库

代码如下：

import requests
from lxml import etree

2.抓取网页源代码

代码如下：

for m in range(1,4):
    list_book=[]
    url=f"https://item.kongfz.com/book/72108580_0_0_{m}.html"
    headers={
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.1311 SLBChan/11",
        "Cookie": "utm_source=101002001000; kfz_uuid=079af831-512f-46c6-84e8-f3241562d06c; PHPSESSID=j89394a0vuopftviucbqlpb6u0; shoppingCartSessionId=742be764759466b29a6baac66f451ae8; reciever_area=1006000000; kfz_trace=079af831-512f-46c6-84e8-f3241562d06c|0|43c848302d9b02b7|101002001000; acw_tc=276077c217166186645673482e17fb9f825350e5872c1162d5a2e6be34ee35; kfz-tid=93d3d34750b31ed25ba24803bedaa26f",
    }
    resp=requests.get(url=url,headers=headers).text
    # print(resp)
    object=etree.HTML(resp)
    book=object.xpath("//div[@id='detail-list-con']//ul/li//text()")
    for i in book:
        i = i.strip().replace("\n","")
        if i==None:
            continue
        else:
            list_book.append(i)
    list=[]
    for i in list_book:
        if i=='':
            continue
        else:
            list.append(i)
    print(list)

该处使用的url网络请求的数据。