最近看到有一些朋友对我爬知乎的代码挺感兴趣的:
我把代码放到github上了,欢迎下载与讨论!
这里是github的地址:
ChenXiaole8844/Crawler_of_zhihugithub.com使用说明:
browser = webdriver.Chrome("/Users/apple/Downloads/chromedriver_mac_mac") 这里的地址改成你自己chromedriver的地址
运行代码之后,输入你所要爬的网站的url,例如:https://www.zhihu.com/question/288647309/answer/875598429 运行代码,坐等csv格式的文件,如:上述url对应的文件为:Zhihu_problem_data:有大神会爬知乎的数据吗?.csv (这是这个问题的回答,我只是个卑微的普通学生,并非大神/哭)
出来的csv结果是长这样子的:
(注意我是保存为"utf-8"格式的,所以如果直接用excel打开会乱码,如果想要用excel打开,需要将保存的格式修改为“GBK”)
这个代码其实从效率方面还是有待改善的,欢迎大家提出一些建议。