苹果笔记本python爬取网页后怎么存下来_简单的python爬取网页字符串内容并保存...

最新推荐文章于 2021-12-29 11:02:46 发布

高鸣蜡烛人挚友

最新推荐文章于 2021-12-29 11:02:46 发布

阅读量152

点赞数

文章标签：苹果笔记本python爬取网页后怎么存下来

本文链接：https://blog.csdn.net/weixin_30334225/article/details/114044356

版权

"该博客介绍了使用Python进行简单的网页爬虫操作，通过`urllib`和`re`库获取并解析HTML页面。主要步骤包括：打开网页、正则匹配特定字符串（如"hash"和"filename"）并存储到txt文件中，以及进行文件内容替换操作。示例代码展示了如何从特定URL抓取和处理数据。"

摘要由CSDN通过智能技术生成

最近想试试python的爬虫库，就找了个只有字符串的的网页来爬取。网址如下：

#coding=utf-8

import urllib

import re

import os

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getHash(html):

reg = r'"hash":"(.+?)",'

has = re.compile(reg)

hashlist = re.findall(has,html)

with open('1.txt','w') as f:

for has in hashlist:

f.write(has+"|"+"\r\n")

def getName(html):

reg=r'"filename":"(.+?)",'

name=re.compile(reg)

namelist=re.findall(name,html)

with open('1.txt','rb') as fr:

with open('2.txt','wb') as fw:

for name in namelist:

for l in fr:

fw.write(l.replace(b'\r\n', name+b'\r\n'))

break

html=getHtml("http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430")

getHash(html)

getName(html)

os.remove('1.txt') 说起来也比较简单，就是拿到取html页面后按照正则取两次内容后存在txt里面。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

高鸣蜡烛人挚友

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

实验十三————网页爬虫

Junds0的博客

11-22

5452

对于得到的多个标签的列表，使用for循环，可以依次访问每个标签，使用find函数找出其时间、标题和地点的文本，加入到列表，再加入二维列表jzxx中。通过BeautifulSoup的find_all(name，attr)方法，可以找到符合条件的多个标签，将多个标签的内容返回为一个列表。通过BeautifulSoup的find_all(name)方法，可以找到多个标签，将多个标签的内容返回为一个列表。根据提示，在右侧编辑器补充代码，爬取湖南大学讲座网页的多个讲座信息，存储在二维列表jzxx中。

简单的python爬取网页字符串内容并保存

u010571211的专栏

05-17

1万+

最近想试试python的爬虫库，就找了个只有字符串的的网页来爬取。网址如下： http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430 打开后看到是一些歌名还有hash等信息。按照hash|filename的方式存在

参与评论您还未登录，请先登录后发表或查看评论

苹果笔记本python爬取网页后怎么存下来_python将网页上的教程爬取下来存成pdf

weixin_33144635的博客

02-05

163

首先：pip install webpage2pdfpip install pypdf2如果没有安装pyqt5，则需要安装pyqt5，高本版或报错，可以装早些的版本pip install PyQt5==5.9.2将所有网站的地址逐行存到文本文件1.txt中编写脚本和1.txt放到同一个空文件夹下from webpage2pdf import RenderManagerif __name__=='_...

苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地

weixin_31106181的博客

01-13

237

这几天一直在学用python爬网页，现在是用urllib2，cookie等模块获取了csdn的博客源码，然后打算把所有博客都保存到本地；这就涉及到了解析html，由于对正则的理解不太深。。。就用了第三方工具模块：美丽的汤---BeautifulSoup ，可以自己百度安装，使用教程，很容易上手：代码不健壮。。主要是容易出现乱码。。有时候遇到全角的时候也会出bug，以后再完善吧。先贴张保...

Python3基础 (一)

DayBreak__的博客

04-05

254

############### 基础语法###############name.title()大写name.upper()name.lower()\t制表符 \nstrip()删除空格 rstrip()删除右面的空格 lstrip()list.append()list.insert(index,para)del list[index]pop()弹出 a=list.pop() 弹出最后一个元素然...

python 爬取网页.docx

09-20

Python 网页爬虫是指使用 Python 语言编写的程序来自动爬取网页内容的过程。爬虫程序可以模拟浏览器的行为，发送 HTTP 请求到目标网站，获取网页内容，并将其存储到本地设备上。在本文中，我们将使用 Scrapy 库来...

python爬取app store的评论_用python爬取苹果官网店铺

weixin_39522170的博客

12-15

1350

'''Copyright (c) 2019.11.23 陈良辉 All rights reserved本爬虫程序能实现的功能:1.爬取苹果官网中国店的网页源码，并且解析2.绘制中国各城市苹果店个数的条形图3.保存中国所有苹果店的店面图4.支持城市-具体地址、号码及图片的显示'''import requestsfrom bs4 import BeautifulSoupimport matplotli...

python爬取苹果商店App下的评论

05-26

使用python爬虫，爬取苹果商店指定App下的评论！

Python爬取视频(其实是一篇福利)过程解析

09-18

以下是一个简单的Python爬取视频的代码示例： ```python import requests from contextlib import closing def download_file(url, path): with closing(requests.get(url, stream=True)) as r: chunk_size = ...

Python爬取苹果官翻机和固件降级信息

06-04

在本项目中，我们主要探讨如何使用Python编程语言来实现自动化爬取苹果官方网站上的官翻机信息以及固件降级的相关数据。这个程序的核心在于利用网络请求和网页解析技术，结合SMTP邮件服务，定期将获取到的信息发送至...

python3抓取中文网页的方法

09-21

主要介绍了python3抓取中文网页的方法,实例分析了Python3页面抓取及编码转换的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

Python3爬取图片

ithouse的专栏

12-23

2038

#coding=utf-8 import urllib.request import redef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return htmldef getImg(html): html = html.decode('utf-8') reg = r

python怎样读取网页中的文本_python 怎么获取网页内容

weixin_39743369的博客

11-21

2517

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能。1 Pyhton获取网页的内容(也就是源代码)（推荐学习：Python视频教程）page = urllib2.urlopen(url)contents = page.read()#获得了整个网页的内容也就是源代码print(contents)url代表网址，...

python的read_Python 文件 read() 方法

weixin_39612877的博客

11-21

893

原博文2018-03-05 14:13 −概述 Python 文件 read() 方法用于从文件中读取指定的字符数，如果未给定或为负则读取所有。语法 read() 方法语法如下： fileObject.read([size]) 参数 size -- 从文件中读取的字符数，包括 "\n" 字符。返回值返回从...010039相关推荐2019-12-09 09:44 −read命令：...

使用python处理wps表格_用python写wps的excel文件 | 学步园

weixin_39548787的博客

11-20

3817

参考了网上的一些帖子，试了一下用python写wps的excel文件（需要windows操作系统，安装了wps的表格处理程序，安装了pywin32）——我安装的是WPS个人版，可以免费使用的。import win32com.client#新建WPS进程#wps、et、wpp对应的是金山文件、表格和演示#word、excel、powerpoint对应的是微软的文字、表格和演示wpsApp=win32...

Mac苹果电脑怎样安装Python

蚂蚁学Python

12-29

7893

按照如下步骤安装 1、下载anaconda包下载包地址：https://repo.anaconda.com/archive/Anaconda3-2021.11-MacOSX-x86_64.pkg 也可以自己下载最新版本： https://www.anaconda.com/products/individual 这个链接最下方 2、打开下载好的安装包双击打开 3、怎样验证是否安装成功？打开启动台输入终端，打开 ...

python中read()