最全python爬虫爬取知网(3)，2024年最新2024年Python大厂面试分享

最新推荐文章于 2024-05-12 16:39:42 发布

2401_84572413

最新推荐文章于 2024-05-12 16:39:42 发布

阅读量1k

点赞数 9

分类专栏：程序员文章标签： python 爬虫面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84572413/article/details/138517460

版权

程序员专栏收录该内容

96 篇文章 0 订阅

订阅专栏

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

import time

import xlrd

from xlrd import open_workbook

from xlutils.copy import copy

class BeautifulPicture():

def get_pic(self):

data = xlrd.open_workbook(r’C:\flim\library_my\new.xls’) # 打开xls文件，自己新建这个文件在运行路径，不然不行的哦

table = data.sheets()[0] # 打开第一张表

table2 = data.sheets()[1] # 打开第一张表

i = table.nrows #上一次爬到的表1的行数

i1 = 0

i2 = table2.nrows #上一次爬到的表2的行数

told = 0

rb = open_workbook(r’C:\flim\library_my\new.xls’,‘utf-8’)

wb = copy(rb) # 将上一次爬到的复制到新表里，并在新表里继续添加纪录

通过get_sheet()获取的sheet有write()方法

ws = wb.get_sheet(0)

ws1 = wb.get_sheet(1)

p = 1 # 这里是页数

for num in range(p, p + 100):

这里的num是页码

web_url =‘http://kns.cnki.net/kns/brief/brief.aspx?curpage=%s&Reco’ \

‘rdsPerPage=50&QueryID=8&ID=&turnpage=1&tpagemode=L&dbPref’ \

‘ix=SCDB&Fields=&DisplayMode=listmode&PageName=ASP.brief_’ \

‘default_result_aspx#J_ORDER&’ % num #这里的URL实现了二次加载

print(‘搜素页的URL=’,web_url)

这里开始是时间控制

t = int(time.clock())

print(t / 60, ‘分钟’)

useTime = t - told

如果一个周期的时间使用太短，则等待一段时间

主要用于防止被禁

if (useTime < 120 and useTime > 10):

print(“useTime=%s” % useTime)

whiteTime = 120 - useTime

print(“等待%s秒” % whiteTime)

time.sleep(whiteTime)

told = int(time.clock())

print(t)

print(‘开始网页get请求’)

r = self.request(web_url)

这里是报错的解释，能知道到底是因为什么不能继续爬了

一开始会看爬到的源代码，但是之后正式开始爬的时候，打印页面源代码会拉低爬虫效率

yan = re.search(r’参数错误’, r.text)

if yan != None:

print(“参数”)

break

yan = re.search(r’验证码’, r.text)

if yan != None:

print(“验证”)

break

#这里开始抓列表里每一个文献的url

soup = re.findall(r’<TR([.$\s\S]*?)', r.text)

#print(soup)#测试打印

for a in soup:

print(“-”, i1)

#print(a)#测试代码

i1 += 1

name = re.search(r’_blank.*<', a)

#print(‘初次取的=’,name)#测试代码

name = name.group()[8:-1]

#print(‘第二次=’,name)#测试代码

name = re.sub(r’', ‘’, name)

#print(‘第三次=’, name) # 测试代码

name = re.sub(r’', ‘’, name)

#print(‘第四次=’, name) # 测试代码

url = re.search(r’href=.*? ', a)#将’‘看做一个子表达式，惰性匹配一次就可以了

url = url.group()

#print(‘爬取的详情页的URL=’,url)#测试代码

将爬来的相对地址，补充为绝对地址

url = “http://kns.cnki.net/KCMS/” + url[11:-2]#数字是自己数的。。。

#print(“url:%s” % url) # 这里是写代码时测试留下的print记录

#下面是参考文献详情的URL

FN = re.search(r’FileName.*?&', url)#.group()#出现错误没有匹配！！！

if FN !=None:#测试代码

FN = re.search(r’FileName.*?&', url).group()

#print(FN)#测试代码

DN = re.search(r’DbName.*?&', url)#.group()

if DN !=None:#测试代码

DN=re.search(r’DbName.*?&', url).group()

#print(DN) #测试代码

DC = re.search(r’DbCode.*?&', url).group()

DUrl = “http://kns.cnki.net/KCMS/detail/frame/list.aspx?%s%s%sRefType=1” % (FN, DN, DC)

#print(‘DUrl=’,DUrl)#测试代码

这里打开文献详情页

R = self.request(DUrl)

#如果没有参考文献，则认为是劣质文献，不爬，转爬下一篇

isR = re.search(r’参考文献’, R.text)

if i1 == 1:

print(“没有参考文献的文章:%s” % name)

if isR == None:

continue

详情页

print(i)

print(“文章名字:%s” % name)

d = self.request(url).text

#print(‘d=’,d)#测试代码

这里是文献摘要，

summary = re.search(r’(?<=name=“ChDivSummary”>).+?(?=)', d)

summary=summary.group()

#print(‘摘要=’,summary)

type = re.search(r’“).html(”.*?"', d)

type = type.group()[9:-1]

ins = re.search(r’TurnPageToKnet(‘in’,‘.*?’', d)

if ins == None:

continue

ins = ins.group()[21:-1]

wt = re.findall(r’TurnPageToKnet(‘au’,‘.*?’', d)

writer = “”

for w in wt:

writer = writer + “,” + w[21:-1]

writer = writer[1:]

ws.write(i, 0, name) #文献名

ws.write(i, 1, writer) #作者名

ws.write(i, 2, type) #文献类别

ws.write(i, 15, num) #列表的页码

ws.write(i, 3, summary) # 摘要

ws.write(i, 16, time.strftime(‘%Y-%m-%d %H:%M:%S’, time.localtime(time.time()))) #记录的时间

这里是文献的关键词，最多可以记录8个关键词

kw = re.findall(r’TurnPageToKnet(‘kw’,‘.*?’', d)

tnum = 0

for tkw in kw:

tnum += 1

tkw = tkw[21:-1]

if tnum > 8:

break

ws.write(i, 3 + tnum, tkw)

这里是文献的来源基金

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

9
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
最全python爬虫爬取知网(3)，2024年最新2024年Python大厂面试分享

)', d)#print(‘摘要=’,summary)"', d)’', d)continue’', d)ws.write(i, 0, name) #文献名ws.write(i, 1, writer) #作者名ws.write(i, 2, type) #文献类别ws.write(i, 15, num) #列表的页码ws.write(i, 3, summary) # 摘要。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。