(1)百度文库爬取过程:
1.请求百度文库URL
2.判断文章类型
3.请求getocinfo接口获取相关参数
4.请求百度文库正文接口
(2)爬取方法:
fetch_url:请求百度文库具体文章的URL
parse_type:从请求到的HTML中获取文章类型
parse_title:从请求到的HTML中获取文章标题
parse_doc:根据相关接口解析doc类型的文档
parse_txt:根据相关接口解析TXT类型的文档
parse_other:对于其他类型的文档,暂时都用图片保存下来
save_file:保存爬取的文库
这个例子重点在于如何借助浏览器Debug工具,抓包工具及Postman. 一步一步找到关键请求,找到请求接口之后的常规爬虫步骤用到了Requests. 正则表达式,JSON操作。
等我运行成功后发代码。
爬虫1.
最新推荐文章于 2023-09-12 22:53:22 发布