python爬取学校题库_python100题目的爬取

import requestsfrombs4 import BeautifulSoup

def getHTMLText(url):try:

r= requests.get(url)

r.raise_for_status()

r.encoding= 'utf-8'

returnr.text

except:return ''def fillTestList(tlist, html):

soup= BeautifulSoup(html, 'html.parser')

meta= soup.find_all('meta', attrs={'name': 'description'})

tlist.append(meta[0].attrs['content'])

def main():

start_url= 'http://www.runoob.com/python/python-exercise-example'tinfo=[]for i in range(101):

url= start_url + str(i) +'.html'

try:

html=getHTMLText(url)

fillTestList(tinfo, html)

except:continue

for i in range(101):try:

with open('100.txt', 'a') asf:

f.write(uinfo[i]+ '\n')

except:continueprint(tinfo)

main()

昨晚时间非常紧张,搞到半夜快十二点了,匆匆把代码发上来没有来得及整理。

最近学了爬虫,总觉得自己已经会了很多,可是实际上手操作的时候才发现原来很多问题都不是简简单单那么回事情。在知乎上看到有人发言,大神学霸级别的人物在两天之内刷完了200道编程作业题,感慨自己真的是超级大学渣。于是乎在网上搜索关于编程题目的网页,查到了有一个的网站质量还是可以的,于是就用上几周学到的知识准备把这些东西都爬出来。

1.整体思路

获取网页内容:getHTMLText(url)

分析内容信息并提取题目到一个列表:fillTestList(tinfo, html)

2.用到的知识点笔记

a.网络爬虫框架getHTMLText(url)可以背一下

b.指定网页编码方式,使获取过程更加流畅

r.encoding = 'utf-8' 这种方式比 r.encoding = r.apprent_encoding 更加迅速,因为在标签中可以看到网页编码方式是utf-8

c.BeautifulSoup中按照标签属性进行查找信息的方式

soup.find_all(‘name', attrs = {'name':'description'})

后面是一个属性的字典

d.写入文件的方式

with open('100.txt', 'a') as f:

f.write(uinfo[i]+ '\n')

文件绝对路径:'D:/100.txt',

读写方式:’r'只读,'w'复写,'a'追加,'rb'二进制读取,'wr'二进制写入

f.write()参数中只能是一个字符串,不能是列表或者字典之类的,自动换行可以在句尾加上'\n',这里就是字符串相加的方法

e.错误的处理

try...except...的应用,在循环处理当中,如果不在乎单个的循环节,可以用continue进行处理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值