一、python爬网页保存txt文档

(一)python爬网页制作题库


前言

太难了,一直发不出来,求求了


一、python爬网页

个人觉得难度:爬题库 < 爬贴吧图片 < 爬文档网站的文档
可能是因为各种答案都是在公众号之类的地方,不需要技术破解,爬着简单

import requests
from lxml import etree
if __name__ == '__main__':
    url = 'https://www.53shop.com/news/131/kes131536.html'
    rs = requests.get(url)
    root = etree.HTML(rs.content)
    texts = root.xpath('//div[@class="content"]/p/text()')

以上程序爬的网页是:https://www.53shop.com/news/131/kes131536.html

1.打开网页,可以发现此页面的文字不能复制粘贴,按f12,点击左上角(长方形+箭头)的图标,再点击页面中题目的位置,就可以定位到相关代码。

2.看到所有题都在div class=“content”里,且文本是在p标签里

所以,要爬别的网页的时候,只需要修改三个地方:
url = ‘https://www.53shop.com/news/131/kes131536.html
texts = root.xpath(’//div[@class="content "]/p /text()’)

自己尝试一下吧~

二、写入txt文档

    f = open('tiku.txt', 'a', encoding='utf-8')#以追加的方式打开文本,不存在则创建
    for text in texts:	#循环
        str(text).replace('\n', '')	#去除原文本里的回车
        f.write(text+'\n')			#将文本按行写入
        print(text)					#打印文本
    f.close()				#关闭文件

总结

又完成一篇,深刻认识到自己的不足,虽然有足够的热情与耐心去钻研不懂的东西,但是又不想按部就班的看教程,没有系统的学习总会是事倍功半,希望随着写作,能改变自己的学习习惯。

下一篇是将txt中“问题-选项-答案”的格式转换为json键值对{“wenti”:“daan”}的形式,为之后自动答题做准备。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tfnmdmx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值