苹果笔记本python爬取网页后怎么存下来_简单的python爬取网页字符串内容并保存...

"该博客介绍了使用Python进行简单的网页爬虫操作,通过`urllib`和`re`库获取并解析HTML页面。主要步骤包括:打开网页、正则匹配特定字符串(如"hash"和"filename")并存储到txt文件中,以及进行文件内容替换操作。示例代码展示了如何从特定URL抓取和处理数据。"
摘要由CSDN通过智能技术生成

最近想试试python的爬虫库,就找了个只有字符串的的网页来爬取。网址如下:

#coding=utf-8

import urllib

import re

import os

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getHash(html):

reg = r'"hash":"(.+?)",'

has = re.compile(reg)

hashlist = re.findall(has,html)

with open('1.txt','w') as f:

for has in hashlist:

f.write(has+"|"+"\r\n")

def getName(html):

reg=r'"filename":"(.+?)",'

name=re.compile(reg)

namelist=re.findall(name,html)

with open('1.txt','rb') as fr:

with open('2.txt','wb') as fw:

for name in namelist:

for l in fr:

fw.write(l.replace(b'\r\n', name+b'\r\n'))

break

html=getHtml("http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430")

getHash(html)

getName(html)

os.remove('1.txt') 说起来也比较简单,就是拿到取html页面后按照正则取两次内容后存在txt里面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值