用python+BeautifulSoup爬百度知道的答案

最新推荐文章于 2024-07-12 19:06:42 发布

devin_op

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量871

点赞数

分类专栏： python 文章标签： python 爬虫 BeautifulSoup

本文链接：https://blog.csdn.net/devin_op/article/details/103205402

版权

因需要一些资料，就写了个爬虫爬取百度知道前N页的所有答案
不过鉴于百度知道的回答质量（你懂得。。。。），爬取的内容仅供参考

替换一下url_root和file_name基本就能通用了
注：每个网站使用的标签不一样，代码仅适用于百度知道，其他网站自行修改
在这里插入图片描述

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import lxml


url_root = 'https://zhidao.baidu.com/search?word=%C0%F8%D6%BE%B6%CC%BE%E4&ie=gbk&site=-1&sites=0&date=0&pn=0'
file_name = 'C:\\Users\\username\\Desktop\\sort_statement.txt'


# 获取下一页的url
def get_next(url):
    strhtml = requests.get(url)
    soup = BeautifulSoup(strhtml.text, 'lxml'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

devin_op

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
用python+BeautifulSoup爬百度知道的答案

因需要一些资料，就写了个爬虫爬取百度知道前N页的所有答案不过鉴于百度知道的回答质量（你懂得。。。。），爬取的内容仅供参考替换一下url_root和file_name基本就能通用了注：每个网站使用的标签不一样，代码仅适用于百度知道，其他网站自行修改# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupim...
复制链接

扫一扫