python爬取学校题库_python100题目的爬取

最新推荐文章于 2024-05-29 09:50:09 发布

weixin_39899244

最新推荐文章于 2024-05-29 09:50:09 发布

阅读量773

点赞数

文章标签： python爬取学校题库

import requestsfrombs4 import BeautifulSoup

def getHTMLText(url):try:

r= requests.get(url)

r.raise_for_status()

r.encoding= 'utf-8'

returnr.text

except:return ''def fillTestList(tlist, html):

soup= BeautifulSoup(html, 'html.parser')

meta= soup.find_all('meta', attrs={'name': 'description'})

tlist.append(meta[0].attrs['content'])

def main():

start_url= 'http://www.runoob.com/python/python-exercise-example'tinfo=[]for i in range(101):

url= start_url + str(i) +'.html'

try:

html=getHTMLText(url)

fillTestList(tinfo, html)

except:continue

for i in range(101):try:

with open('100.txt', 'a') asf:

f.write(uinfo[i]+ '\n')

except:continueprint(tinfo)

main()

昨晚时间非常紧张，搞到半夜快十二点了，匆匆把代码发上来没有来得及整理。

最近学了爬虫，总觉得自己已经会了很多，可是实际上手操作的时候才发现原来很多问题都不是简简单单那么回事情。在知乎上看到有人发言，大神学霸级别的人物在两天之内刷完了200道编程作业题，感慨自己真的是超级大学渣。于是乎在网上搜索关于编程题目的网页，查到了有一个的网站质量还是可以的，于是就用上几周学到的知识准备把这些东西都爬出来。

1.整体思路

获取网页内容：getHTMLText(url)

分析内容信息并提取题目到一个列表：fillTestList(tinfo, html)

2.用到的知识点笔记

a.网络爬虫框架getHTMLText(url)可以背一下

b.指定网页编码方式，使获取过程更加流畅

r.encoding = 'utf-8' 这种方式比 r.encoding = r.apprent_encoding 更加迅速，因为在标签中可以看到网页编码方式是utf-8

c.BeautifulSoup中按照标签属性进行查找信息的方式

soup.find_all(‘name', attrs = {'name':'description'})

后面是一个属性的字典

d.写入文件的方式

with open('100.txt', 'a') as f:

f.write(uinfo[i]+ '\n')

文件绝对路径：'D:/100.txt',

读写方式：’r'只读，'w'复写,'a'追加,'rb'二进制读取,'wr'二进制写入

f.write()参数中只能是一个字符串，不能是列表或者字典之类的，自动换行可以在句尾加上'\n'，这里就是字符串相加的方法

e.错误的处理

try...except...的应用，在循环处理当中，如果不在乎单个的循环节，可以用continue进行处理

weixin_39899244

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取学校题库_python100题目的爬取

import requestsfrombs4 import BeautifulSoupdef getHTMLText(url):try:r= requests.get(url)r.raise_for_status()r.encoding= 'utf-8'returnr.textexcept:return ''def fillTestList(tlist, html):soup= Beautiful...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。