抓取html资源链接,抓取某网页的所有链接并将链接编码后放入各个文件夹内

最新推荐文章于 2022-07-15 20:33:18 发布

weixin_39765339

最新推荐文章于 2022-07-15 20:33:18 发布

阅读量1.1k

点赞数

文章标签：抓取html资源链接

# -*- coding: utf-8 -*-

#title：抓取某网页的所有链接并将链接编码后放入各个文件夹内

importre

importrequests

importsys

importos

#定义页面链接，并抓取此页面的网页代码

r = requests.get('https://www.chinabidding.cn/search/searchzbw/search2?rp=22&categoryid=1&keywords=%E8%BD%A8%E9%81%93%E4%BA%A4%E9%80%9A&page=1&areaid=&table_type=0&b_date=year');

#把代码存入一个变量中

data = r.text

#print data;

#正则匹配需要抓取的链接

link_list =re.findall(r'target="_blank" href="(.+?\.html)',data)

#定义一个参数为0，方便循环编码

i=0

#开始循环

for url in link_list:

#循环参数

i=i+1

#将参数变为字符串方便拼接

ii ='%d'%i

#在路径下创建编码的文件夹

os.makedirs(r'd:/pythonWorkSpace/Python27PygamePy2exe-master/Python27PygamePy2exe-master/'+ii)

#在目标文件夹下打开一个html页面并定于可以写入

f =file('d:/pythonWorkSpace/Python27PygamePy2exe-master/Python27PygamePy2exe- master/'+ii+'/'+ii+".html","w")

#定义抓取的目标页面下的子链接的html代码

url='https://www.chinabidding.cn'+url

printurl

#抓取子链接代码

r = requests.get(url)

#编码转换，不转会报错，可以在此转，也可以用u'字符串'的形式转

reload(sys)

sys.setdefaultencoding('utf-8')

#将html代码写入变量

thisdata = r.text

#将变量写入文件

f.write(thisdata)

#关闭文件

f.close()

#print thisdata

weixin_39765339

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
抓取html资源链接,抓取某网页的所有链接并将链接编码后放入各个文件夹内

# -*- coding: utf-8 -*-#title：抓取某网页的所有链接并将链接编码后放入各个文件夹内importreimportrequestsimportsysimportos#定义页面链接，并抓取此页面的网页代码r = requests.get('https://www.chinabidding.cn/search/searchzbw/search2?rp=22&catego...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。