抓取孔夫子旧书网

 


前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、requests什么?

requests是一个python模拟浏览器对服务器发起请求的一个库

二、使用步骤

1.引入库

代码如下:

import requests
from lxml import etree

2.抓取网页源代码

代码如下:

for m in range(1,4):
    list_book=[]
    url=f"https://item.kongfz.com/book/72108580_0_0_{m}.html"
    headers={
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.3.1311 SLBChan/11",
        "Cookie": "utm_source=101002001000; kfz_uuid=079af831-512f-46c6-84e8-f3241562d06c; PHPSESSID=j89394a0vuopftviucbqlpb6u0; shoppingCartSessionId=742be764759466b29a6baac66f451ae8; reciever_area=1006000000; kfz_trace=079af831-512f-46c6-84e8-f3241562d06c|0|43c848302d9b02b7|101002001000; acw_tc=276077c217166186645673482e17fb9f825350e5872c1162d5a2e6be34ee35; kfz-tid=93d3d34750b31ed25ba24803bedaa26f",
    }
    resp=requests.get(url=url,headers=headers).text
    # print(resp)
    object=etree.HTML(resp)
    book=object.xpath("//div[@id='detail-list-con']//ul/li//text()")
    for i in book:
        i = i.strip().replace("\n","")
        if i==None:
            continue
        else:
            list_book.append(i)
    list=[]
    for i in list_book:
        if i=='':
            continue
        else:
            list.append(i)
    print(list)

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了requests的使用和一些提取源代码数据的方法,常用的re,xpath,bs4,文章只用了xpath。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值