【网络爬虫 20】文件存储

最新推荐文章于 2021-06-29 10:32:31 发布

Hello_Git

最新推荐文章于 2021-06-29 10:32:31 发布

阅读量144

点赞数

分类专栏： python3网络爬虫开发实战文章标签：爬虫

本文链接：https://blog.csdn.net/qq_46060468/article/details/113774995

版权

python3网络爬虫开发实战专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一.TXT 文本存储

本节中，要保存知乎上 “发现” 页面的 “热门话题” 部分，将其问题和答案统一保存成文本形式。

注意：因为网页结构换了，所以不适用了


首先，可以用 requests 将网页源代码获取下来，然后使用 pyquery 解析库解析，接下来将提取的标题、回答者、回答保存到文本，代码如下：
这里主要是为了演示文件保存的方式，因此 requests 异常处理部分在此省去。首先，用 requests 提取知乎的 “发现” 页面，然后将热门话题的问题、回答者、答案全文提取出来，然后利用 Python 提供的 open() 方法打开一个文本文件，获取一个文件操作对象，这里赋值为 file，接着利用 file 对象的 write() 方法将提取的内容写入文件，最后调用 close() 方法将其关闭，这样抓取的内容即可成功写入文本中了。
这里 open() 方法的第一个参数即要保存的目标文件名称，第二个参数为 a，代表以追加方式写入到文本。另外，我们还指定了文件的编码为 utf-8。最后，写入完成后，还需要调用 close() 方法来关闭文件对象。
运行程序，可以发现在本地生成了一个 explore.txt 文件

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
items = doc('.explore-tab .feed-item').items()
for item in items:
    question = item.find('h2').text()
    author = item.find('.author-link-line').text()
    answer = pq(item.find('.content').html()).text()
    file = open('explore.txt', 'a', encoding='utf-8')
    file.write('\n'.join([question, author, answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

但是，豆瓣可以(：）)

Hello_Git

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【网络爬虫 20】文件存储

一.TXT 文本存储本节中，要保存知乎上 “发现” 页面的 “热门话题” 部分，将其问题和答案统一保存成文本形式。注意：因为网页结构换了，所以不适用了首先，可以用 requests 将网页源代码获取下来，然后使用 pyquery 解析库解析，接下来将提取的标题、回答者、回答保存到文本，代码如下：这里主要是为了演示文件保存的方式，因此 requests 异常处理部分在此省去。首先，用 requests 提取知乎的 “发现” 页面，然后将热门话题的问题、回答者、答案全文提取
复制链接

扫一扫

专栏目录