python中info什么意思_（python版本2.7）为什么我运行代码以后再看info文件夹里什么也没有啊？...

最新推荐文章于 2021-03-04 05:48:02 发布

勃恩泽

最新推荐文章于 2021-03-04 05:48:02 发布

阅读量4.2k

点赞数

文章标签： python中info什么意思

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32491317/article/details/112840719

版权

本文档展示了一个Python爬虫程序，它使用requests和正则表达式库来获取网页内容，解析课程信息，包括标题、内容、上课时间和级别，并将这些信息保存到info.txt文件中。主要涉及的函数有获取网页源代码、生成不同页码链接、提取课程块信息以及保存信息到文件等。

摘要由CSDN通过智能技术生成

#-*-coding:utf8-*-

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

class spider(object):

def __init__(self):

print u'开始爬取内容。。。'

#getsource用来获取网页源代码

def getsource(self,url):

html = requests.get(url)

return html.text

#changepage用来生产不同页数的链接

def changepage(self,url,total_page):

now_page = int(re.search('pageNum=(\d+)',url,re.S).group(1))

page_group = []

for i in range(now_page,total_page+1):

link = re.sub('pageNum=\d+','pageNum=%s'%i,url,re.S)

page_group.append(link)

return page_group

#geteveryclass用来抓取每个课程块的信息

def geteveryclass(self,source):

everyclass = re.findall('(

)',source,re.S)

return everyclass

#getinfo用来从每个课程块中提取出我们需要的信息

def getinfo(self,eachclass):

info = {}

info['title'] = re.search('target="_blank">(.*?)',eachclass,re.S).group(1)

info['content'] = re.search('

(.*?)',eachclass,re.S).group(1)

timeandlevel = re.findall('(.*?)',eachclass,re.S)

info['classtime'] = timeandlevel[0]

info['classlevel'] = timeandlevel[1]

info['learnnum'] = re.search('"learn-number">(.*?)',eachclass,re.S).group(1)

return info

#saveinfo用来保存结果到info.txt文件中

def saveinfo(self,classinfo):

f = open('info.txt','a')

for each in classinfo:

f.writelines('title:' + each['title'] + '\n')

f.writelines('content:' + each['content'] + '\n')

f.writelines('classtime:' + each['classtime'] + '\n')

f.writelines('classlevel:' + each['classlevel'] + '\n')

f.writelines('learnnum:' + each['learnnum'] +'\n\n')

f.close()

if __name__ == '__main__':

classinfo = []

jikespider = spider()

all_links = jikespider.changepage(url,20)

for link in all_links:

print u'正在处理页面：' + link

html = jikespider.getsource(link)

everyclass = jikespider.geteveryclass(html)

for each in everyclass:

info = jikespider.getinfo(each)

classinfo.append(info)

jikespider.saveinfo(classinfo)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中info什么意思_（python版本2.7）为什么我运行代码以后再看info文件夹里什么也没有啊？...

#-*-coding:utf8-*-import requestsimport reimport sysreload(sys)sys.setdefaultencoding("utf-8")class spider(object):def __init__(self):print u'开始爬取内容。。。'#getsource用来获取网页源代码def getsource(self,url):html ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。