一、python爬网页保存txt文档

最新推荐文章于 2024-02-23 23:57:32 发布

tfnmdmx

最新推荐文章于 2024-02-23 23:57:32 发布

阅读量1.6k

点赞数 2

分类专栏： # python 文章标签： js android

本文链接：https://blog.csdn.net/tfnmdmx/article/details/115407765

版权

python 专栏收录该内容

8 篇文章 2 订阅

订阅专栏

（一）python爬网页制作题库

前言
一、python爬网页
二、写入txt文档
总结

前言

太难了，一直发不出来，求求了

一、python爬网页

个人觉得难度：爬题库 < 爬贴吧图片 < 爬文档网站的文档
可能是因为各种答案都是在公众号之类的地方，不需要技术破解，爬着简单

import requests
from lxml import etree
if __name__ == '__main__':
    url = 'https://www.53shop.com/news/131/kes131536.html'
    rs = requests.get(url)
    root = etree.HTML(rs.content)
    texts = root.xpath('//div[@class="content"]/p/text()')

以上程序爬的网页是：https://www.53shop.com/news/131/kes131536.html

1.打开网页，可以发现此页面的文字不能复制粘贴，按f12，点击左上角（长方形+箭头）的图标，再点击页面中题目的位置，就可以定位到相关代码。

2.看到所有题都在div class=“content”里，且文本是在p标签里

所以，要爬别的网页的时候，只需要修改三个地方：
url = ‘~~https://www.53shop.com/news/131/kes131536.html~~ ’
texts = root.xpath(’//div[@class="~~content~~ "]/p /text()’)

自己尝试一下吧~

二、写入txt文档

    f = open('tiku.txt', 'a', encoding='utf-8')#以追加的方式打开文本，不存在则创建
    for text in texts:	#循环
        str(text).replace('\n', '')	#去除原文本里的回车
        f.write(text+'\n')			#将文本按行写入
        print(text)					#打印文本
    f.close()				#关闭文件