python爬取知乎回答书单_python 爬取知乎盐选文章内容

最新推荐文章于 2024-08-28 08:57:25 发布

weixin_39575937

最新推荐文章于 2024-08-28 08:57:25 发布

阅读量1.8k

点赞数

文章标签： python爬取知乎回答书单

本文介绍如何使用Python爬虫登录知乎并抓取盐选文章的内容。通过登录模块、设置User-Agent、正则表达式解析链接，逐页获取文章段落并保存到文本文件中。

摘要由CSDN通过智能技术生成

[Python] 纯文本查看复制代码from DecryptLogin import login

from bs4 import BeautifulSoup

import re

import base64

lg = login.Login()

_, loginstauts = lg.zhihu(username='', password='', mode='pc')

headers = {

'user-agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"

}

url1 = "https://www.zhihu.com/market/paid_column/1178733193687175168/section/1178742737682350080"

url2 = "https://www.zhihu.com/market/paid_column/1178733193687175168/section/1178742849583083520"

# 获取链接

r = loginstauts.get(url1, headers=headers)

wenzi = r.text

soup = BeautifulSoup(wenzi, 'lxml')

lianjie = soup.textarea

lianjie = str(lianjie)

pattern = re.compile('"next_section":{"url":"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39575937

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

知乎文章复制下来的方法

FergusJ的博客

05-21

9275

各路大神的方法：https://www.zhihu.com/question/35874016 一个简单的办法： chrome打开知乎页面，按顺序 F12 - F1 - 在Debugger 里面点选 Disable JavaScript。就可以复制了。其他方法：查看源码复制文本区域html 粘贴到dreamweaver 右侧复制内容 2016年7月14日15:25:59 这个只针对禁止转载的回答。如果一个答案提交时勾选了“未经许可，禁止转载”，那么这个答案是不能

python 爬取某乎某选全部内容

yujia123321的博客

03-28

4167

在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。 from DecryptLogin import login from bs4 import BeautifulSoup import re import base64 lg = login.Login() _, loginstauts

参与评论您还未登录，请先登录后发表或查看评论

python博客园、知乎、掘金爬取知乎文章及问答

weixin_45790562的博客

12-20

898

【代码】python博客园、知乎、掘金爬取知乎文章及问答。

Python爬取知乎专栏文章并生成PDF

编码行者的博客

11-26

2103

爬取的专栏文章按照原网站样式生成保存PDF import json import io import requests from bs4 import BeautifulSoup from Novel import headers from articleUtils import * sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encodi...

过检大马下载webshell，360，安全狗。。。

热门推荐

weixin_74245209的博客

11-10

8万+

上传利器phpwebshell提权关注我获取更多资源 <?php $password = "68xi";//设置密码 error_reporting(E_ERROR); header("content-Type: text/html; charset=gb2312"); set_time_limit(0); function Root_GP(&$array) { while(list($key,$var) = each($array)) {

探秘知乎数据抓取神器 —— zhihu-spider

gitblog_00402的博客

08-28

421

探秘知乎数据抓取神器 —— zhihu-spider zhihu-spiderA web spider for zhihu.com项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider 在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生Morga...

一分钟爬取知乎5646个知乎回答(内附代码)

一行玩python

04-21

2002

不浪费大家时间，先上目录，选择性阅读 1.爬取介绍2.代码展示3.结果展示4.福利分享批量爬取知乎回答灵魂拷问你有多久没读过一本书了？你知道什么书最值得读吗？你有多久没看过一部电影了？你知道什么电影最值得看吗？有人说，我知道可以去看豆瓣评分，按照评分高低排序选书，但是往往评分高的输却不容易阅读，比如说评分高的不一定容易理解，比如下图介绍的《量子力学》，评分高达9.6，五星好评，可惜工作...

【安排】23行代码爬取知乎全部回答（内附源码和应用程序）

2401_84618023的博客

04-27

356

Python爬虫之爬取豆瓣图书TOP250

JinTian312的博客

01-21

7940

爬取豆瓣图书TOP250图书信息及图书海报写这篇主要是为了去图书馆不知道看什么书或者不知道该买些什么书的时候可以参考经过众多豆友们点评出的好书推荐，哈哈哈哈哈。上代码（全部代码均在这里，只是分开按照步骤解释一下）第一步：导入需要用到的包。 from bs4 import BeautifulSoup # 网页解析，获取数据 import urllib.request, urllib.error # 指定url，获取网页数据 import re

知乎爬虫最新版java

07-11

java写的爬虫多线程爬取知乎用户详细信息,方便简单,重要的是这是最新的

zhihu-column-downloader:知乎盐选专栏下载, 支持视频、音频、图文

05-31

说明仅供学习交流; 个人使用的半成品项目; 下载登录后能访问的知乎盐选专栏, 支持下载视频、音频、文稿(保存为pdf). 使用方法安装依赖 pip install -r requirements.txt 安装wkhtmltopdf, 并加入path; 登录目前的做法: 浏览器登陆后把cookie粘贴到根目录的cookie.txt(如果不存在需要手动创建); cookie其实只复制z_c0项即可; 下载: 默认下载到了当前文件夹下的"知乎盐选专栏"; 下载某一个盐选专栏: python column_downloader.py url # 比如: # python column_downloader.py https://www.zhihu.com/remix/albums/123456 下载所有: python all_column_downloader.py 会读取course.d

某盐选之文章内容获取

萧海的博客

04-23

384

【代码】某盐选之文章内容获取。

如何实现自由复制知乎文章？【1分钟掌握】

夏2同学的博客

01-29

3万+

原理：知乎是通过JavaScript禁止用户进行复制文章。所以关闭掉浏览器解析JS代码就可以实现复制。实现：以chrome浏览器为例。按F12，再按F1，进入如下图所示界面：勾选箭头所指按钮选中内容，按住ctrl+c即可复制文章粘贴效果，如图所示：温馨提醒，完成复制文章后，不要忘记关闭disable JavaScript。 ...

python编写知乎爬虫实践

banyan3646的博客

06-13

1014

爬虫的基本流程网络爬虫的基本工作流程如下：首先选取一部分精心挑选的种子URL 将种子URL加入任务队列从待抓取URL队列中取出待抓取的URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。解...

知乎爬虫（一）

Wind_white的博客

09-05

1万+

项目github地址：https://github.com/Lee-Jiazheng/zhihu_spider 知乎作为一个内容平台，有大量的新奇内容值得我们爬取，承受前人诸多知识，所以也写点东西为初学者提供一个学习的途径。爬虫，就是在一张大网上不断地爬取信息，刚开始我们只有一个小点，也称为种子，从这个点逐步扩张，成为一只大网，所以爬虫就是一张结网的蜘蛛。所以我们先到知乎的发现页，

基于java的共享汽车管理系统的开题报告2.docx

09-25

基于java的共享汽车管理系统的开题报告2.docx

基于SpringBoot的ChongyouLostandfound失物招领网站设计源码

09-25

该源码是一款基于SpringBoot框架构建的重邮失物招领网站，包含了250个文件，涵盖101个XML配置文件、44个Java源代码文件、26个HTML页面文件、20个JavaScript脚本文件、12个CSS样式文件、12个图片文件（JPG格式）、10个属性文件、5个ICO图标文件、5个PNG图片文件、4个SVG矢量图形文件。项目采用Java、HTML、JavaScript和CSS等多种语言实现，功能完善，界面友好。

小白学JavaScript的第六天