一.TXT 文本存储
本节中,要保存知乎上 “发现” 页面的 “热门话题” 部分,将其问题和答案统一保存成文本形式。
- 注意:因为网页结构换了,所以不适用了
首先,可以用 requests 将网页源代码获取下来,然后使用 pyquery 解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下: |
这里主要是为了演示文件保存的方式,因此 requests 异常处理部分在此省去。首先,用 requests 提取知乎的 “发现” 页面,然后将热门话题的问题、回答者、答案全文提取出来,然后利用 Python 提供的 open() 方法打开一个文本文件,获取一个文件操作对象,这里赋值为 file,接着利用 file 对象的 write() 方法将提取的内容写入文件,最后调用 close() 方法将其关闭,这样抓取的内容即可成功写入文本中了。 |
这里 open() 方法的第一个参数即要保存的目标文件名称,第二个参数为 a,代表以追加方式写入到文本。另外,我们还指定了文件的编码为 utf-8。最后,写入完成后,还需要调用 close() 方法来关闭文件对象。 |
运行程序,可以发现在本地生成了一个 explore.txt 文件 |
import requests
from pyquery import PyQuery as pq
url = 'https://www.zhihu.com/explore'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
items = doc('.explore-tab .feed-item').items()
for item in items:
question = item.find('h2').text()
author = item.find('.author-link-line').text()
answer = pq(item.find('.content').html()).text()
file = open('explore.txt', 'a', encoding='utf-8')
file.write('\n'.join([question, author, answer]))
file.write('\n' + '=' * 50 + '\n')
file.close()
- 但是,豆瓣可以(:))