爬虫1.

(1)百度文库爬取过程:
1.请求百度文库URL
2.判断文章类型
3.请求getocinfo接口获取相关参数
4.请求百度文库正文接口
(2)爬取方法:
fetch_url:请求百度文库具体文章的URL
parse_type:从请求到的HTML中获取文章类型
parse_title:从请求到的HTML中获取文章标题
parse_doc:根据相关接口解析doc类型的文档
parse_txt:根据相关接口解析TXT类型的文档
parse_other:对于其他类型的文档,暂时都用图片保存下来
save_file:保存爬取的文库
这个例子重点在于如何借助浏览器Debug工具,抓包工具及Postman. 一步一步找到关键请求,找到请求接口之后的常规爬虫步骤用到了Requests. 正则表达式,JSON操作。
等我运行成功后发代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值