爬取百度文库

我是新手,第一次发表文章(望照顾)

总想爬爬百度啥的,于是乎......

我把代码写成这样

from bs4 import BeautifulSoup
import requests
#指定selenium进行自动化操作时选用谷歌浏览器
res = requests.get('https://wenku.baidu.com/view/1695314e2b160b4e767fcfcb.html')
bea = BeautifulSoup(res.text,'html.parser')
datas = bea.find_all('div',class_='ie-fix')

for data in datas:
    dataes = data.find_all('p')
    for datae in dataes:
        print(datae.text)

爬取url:https://wenku.baidu.com/view/1695314e2b160b4e767fcfcb.html

虽然爬下来了

但是!

文章不完整,只有第一页。。。

于是!

我把视线转向了selenium

但是我对selenium并不熟悉,写了个乱七八糟的东西也运行不了(不展示了)

然后嫩,突然看到一个东西!

顿时    灵感大发

下面是正文

F12打开调试界面(部分电脑fn+F12)

Ctrl+R刷新

然后看了一下第一个请求,发现只有第一页的内容,所以我看了下XHR:

依旧什么都没有

然后!

目光锁定了JS

并且找到了我想要的东西

点开一个

URL好长......

copy一下,粘贴到网址框

红色框内是有用的东西

可是。。。文章在哪里啊?

你猜。

猜到了嘛

好吧,其实在这里:

看不懂?

那是因为编码的问题,代码中可以用

xxx.encoding = "xxx"

来解决

OK,开始写代码!

首先导入要用的模块

import requests,re

由于一篇文章由多个请求构成:

所以有三个URL

先试试第一个URL

我把代码写成了这样:

import requests,re

url = 'https://wkbjcloudbos.bdimg.com/v1/docconvert5157/wk/c192f2e85e9a2d2699374b803c576a27/0.json?responseContentType=application%2Fjavascript&responseCacheControl=max-age%3D3888000&responseExpires=Fri%2C%2013%20Aug%202021%2019%3A59%3A29%20%2B0800&authorization=bce-auth-v1%2Ffa1126e91489401fa7cc85045ce7179e%2F2021-06-29T11%3A59%3A29Z%2F3600%2Fhost%2Fcf846d73231af5f9c7dd8aba7ed889d25f725d090ac448994683f220a2b18451&x-bce-range=36277-53861&token=eyJ0eXAiOiJKSVQiLCJ2ZXIiOiIxLjAiLCJhbGciOiJIUzI1NiIsImV4cCI6MTYyNDk3MTU2OSwidXJpIjp0cnVlLCJwYXJhbXMiOlsicmVzcG9uc2VDb250ZW50VHlwZSIsInJlc3BvbnNlQ2FjaGVDb250cm9sIiwicmVzcG9uc2VFeHBpcmVzIiwieC1iY2UtcmFuZ2UiXX0%3D.ab0EO2fzQrsmtRabQvspOnRaf7DyafksS3pYC4UO5X4%3D.1624971569'
headers =  {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}


res = requests.get(url=url,headers=headers)
res.encoding = "unicode_escape"
res_list = re.findall('"c":"(.*?)","p"',res.text)
for x in res_list:
    print(x,end="")

很成功的吧第一页爬下来了,运行结果:

总是在很无力着,因为我们年轻,年轻的只有活力与时间。我们总想设法的去改变自己的命运,设法的让身边亲近的人过的更幸福一点 
,设法着哪一天可以抵达理想的彼岸,设法着让自己拥有幸福的感情,可是,发现很多东西是那么的难,所有的东西要实现不是一阵子而是一
辈子的事,一辈子太长,很多的东西容易变质,谁也没有办法保证永远。所以,更多的时候沉默也许是自己回答所有的最好方式,既然承诺不
了,何必多言,万事还需自己努力的经营。      转眼的青春留在心底太多的东西
  • 8
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值