原文地址及源码下载: xiaoxu
在浏览知乎问题过程中,为了通过关键字快速定位到自己想要的回答,写了这个爬虫程序。可以根据问题ID和关键词组合,保存所有含有关键词的回答。
其中,必须含有的关键词以空格间隔,或含有的关键词以+间隔,例如,查找知乎ID为23437659的问题:“国内你最喜欢的城市(除家乡外生活过的城市)是哪里?为什么?”,要求回答中含有杭州,同时含有南京或武汉,则输入关键词为“杭州 南京+武汉”。其中,问题ID从问题链接中即可得到,如上述问题链接为https://www.zhihu.com/question/23437659
,问题ID即为链接后面的数字。
请输入问题编号:23437659
请输入关键字(同时含有以空格间隔,或含有用+间隔):杭州 南京+武汉
符合条件的回答保存在csv文件和txt文件中,其中,csv文件只含有所有符合条件的回答的链接。
#!/user/bin/python
#-*-coding:utf-8-*-
#author:luoxiaoxu
#blog:xiaoxu.online
#Filename: ZhihuAnswerDowload.py
#Function: 爬取知乎问题中含有特定关键词的回答
from bs4 import BeautifulSoup
import requests
import os
import re
import time
import csv
import json
def GetAnswer(*Question_ID):
if len(Question_ID)==0:
Question_ID=input("请输入问题编号:")
keyword=input('请输入关键字(同时含有以空格间隔,