知乎文章复制下来的方法

各路大神的方法:https://www.zhihu.com/question/35874016

一个简单的办法:

chrome打开知乎页面,按顺序 F12 - F1 - 在Debugger 里面点选 Disable JavaScript。就可以复制了。

其他方法:

查看源码复制文本区域html

粘贴到dreamweaver 右侧复制内容

2016年7月14日15:25:59

这个只针对禁止转载的回答。如果一个答案提交时勾选了“未经许可,禁止转载”,那么这个答案是不能直接复制的,复制时会有相关提示,让联系作者。上面的方法也只能说是防君子不防小人,对于那种人肉转载来说可能有效,但是对于采集爬虫来说,没有任何意义。

但是对于我们自己做笔记来说,怎么办呢?一个简单的办法,是使用Chrome的开发人员工具,直接复制相关片段的html,然后保存为html,打开这个html文件之后,再直接复制相关资料即可。

具体步骤:

1. 按F12打开开发人员工具,或者在chrome菜单中找到开发人家工具;

2. 开发人员工具左上角有个检索按钮,点击之后,在页面上选择需要的片段;

3. 这时可以看到开发人员工具“elements”标签下对应的元素已经选中,右键选择“复制”或者“copy”;

4. 新建一个文本文件,后缀名是.html,把刚刚复制的内容粘贴进去;

5. 双击打开步骤4中新建的html,直接复制其内容即可。

<think>好的,用户想了解如何抓取一篇乎长文。首先,我需要明确用户的需求。抓取乎长文可能有多种用途,比如数据分析、内容备份或研究等。但要注意乎的使用条款,避免侵犯版权或违反网站规定。 接下来,我应该考虑技术方法。常见的抓取方式包括手动复制、浏览器插件、Python脚本等。手动复制虽然简单,但效率低,不适合长篇文章。浏览器插件如Web Scraper可能更适合非技术用户,但可能需要配置。 对于技术用户,使用Python和爬虫库可能是更高效的方法。需要用到requests获取网页内容,BeautifulSoup或lxml解析HTML。但乎可能有反爬机制,比如需要登录或者处理动态加载的内容。这时候可能需要用到Selenium或模拟登录。 还需要注意乎的robots.txt文件,查看是否允许爬虫抓取。同时,设置合理的请求间隔,避免给服务器造成压力,防止IP被封。 另外,乎长文可能会有分页或动态加载,需要处理AJAX请求。检查网页结构,找到包含全文的API接口,直接请求接口可能更有效。 最后,要提醒用户遵守法律法规和网站政策,尊重识产权,仅抓取允许公开访问的数据,不进行大规模爬取,避免法律风险。</think>抓取乎长文内容需要遵守相关法律法规和乎用户协议,仅建议对公开可见内容进行技术研究。以下是合规操作的三种常用方法: 一、手动复制保存(适合单次操作) 1. 展开全文:点击文章底部"展开阅读全文" 2. 复制内容:Ctrl+A全 → Ctrl+C复制 3. 格式处理:粘贴到文本编辑器(推荐Markdown格式) 4. 注意:图片需单独右键另存为 二、浏览器插件方案(适合非技术人员) 1. 安装Web Scraper插件(Chrome商店获取) 2. 创建Sitemap: ```json { "startUrl": "目标文章URL", "selectors": [ { "id": "content", "selector": ".Post-RichText", "type": "Text" } ] } ``` 3. 执行爬取并导出CSV/JSON 三、Python自动化方案(需编程基础) ```python import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } def get_zhihu_article(url): response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'lxml') # 提取核心内容 title = soup.find('h1').text.strip() content = soup.find('div', class_='Post-RichText').get_text() # 处理分页文章 while True: next_page = soup.find('button', text='下一页') if not next_page: break next_url = next_page['data-url'] response = requests.get(next_url, headers=headers) soup = BeautifulSoup(response.text, 'lxml') content += '\n' + soup.find('div', class_='Post-RichText').get_text() return {'title': title, 'content': content} # 使用示例 article = get_zhihu_article('https://zhuanlan.zhihu.com/p/xxx') ``` 注意事项: 1. 频率控制:请求间隔建议≥5秒 2. 登录验证:部分文章需要添加cookies 3. 反爬绕过:建议使用代理IP池(需商业服务) 4. 动态渲染:对React渲染页面可使用Selenium ```python from selenium.webdriver import Chrome from selenium.webdriver.chrome.options import Options opts = Options() opts.add_argument("--headless") # 无头模式 driver = Chrome(options=opts) driver.get(url) content = driver.find_element_by_css_selector('.Post-RichText').text ``` 法律提醒: 1. 遵守Robots协议(https://www.zhihu.com/robots.txt) 2. 禁止商业化使用抓取内容 3. 尊重作者版权声明 4. 每日抓取量建议不超过100篇 更合规的方案是使用乎官方API: ```bash GET https://api.zhihu.com/articles/{article_id} 需申请开发者权限并获取OAuth2授权 ``` 建议优先考虑通过乎的「收藏」功能或「导出PDF」按钮(文章右下角···菜单)进行合规内容保存。技术抓取应仅限于个人学习研究,且不得规避网站技术保护措施。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值