python批量下载网页文件夹_Python抓取网页&批量下载文件方法初探（正则表达式+BeautifulSoup） (转)...

最新推荐文章于 2024-08-14 11:00:39 发布

weixin_39996742

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量535

点赞数

文章标签： python批量下载网页文件夹

本文介绍了作者在学习Python抓取网页和批量下载文件时的经验，包括如何伪装成浏览器抓取网页、处理编码问题、使用正则表达式分析网页以及利用BeautifulSoup解析网页。此外，还分享了下载文件的简单方法和使用正则表达式的注意事项。

摘要由CSDN通过智能技术生成

最近两周都在学习Python抓取网页方法，任务是批量下载网站上的文件。对于一个刚刚入门python的人来说，在很多细节上都有需要注意的地方，以下就分享一下我在初学python过程中遇到的问题及解决方法。

一、用Python抓取网页

基本方法：

importurllib2,urllib

url = 'http://www.baidu.com'

req = urllib2.Request(url)

content = urllib2.urlopen(req).read()

1)、url为网址，需要加'http://'

2)、content为网页的html源码

问题：

1、网站禁止爬虫，不能抓取或者抓取一定数量后封ip

解决：伪装成浏览器进行抓取，加入headers：

importurllib2,urllib

headers = { #伪装为浏览器抓取

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

req = urllib2.Request(url,headers=headers)

content = urllib2.urlopen(req).read()

2、抓取网页中的中文为乱码问题

解决：用BeautifulSoup解析网页（BeautifulSoup是Python的一个用于解析网页的插件，其安装及使用方法下文会单独讨论）

首先需要介绍一下网页中的中文编码方式，一般网页的编码会在标签中标出，目前有三种，分别是GB2312，GBK，GB18030，三种编码是兼容的，

从包含的中文字符个数比较：GB2312 < GBK < GB18030，因此如果网页标称的编码为GB2312，但是实际上用到了GBK或者GB18030的中文字符，那么编码工具就会解析错误，导致编码退回到最基本的windows-2152了。所以解决此类问题分两种情况。

1)、若网页的实际的中文编码和其标出的相符的话，即没有字符超出所标称的编码，下面即可解决

importurllib,urllib2,bs4

req = urllib2.Request(url)

content = urllib2.urlopen(req).read()

content = bs4.BeautifulSoup(content)

returncontent

2)、若网页中的中文字符超出所标称的编码时，需要在BeautifulSoup中传递参数from_encoding，设置为最大的编码字符集GB18030即可

importurllib,urllib2,bs4

req = urllib2.Request(url)

content = urllib2.urlopen(req).read()

content = bs4.BeautifulSoup(content,from_encoding='GB18030')

returncontent

二、用Python下载文件

使用Python下载文件的方法有很多，在此只介绍最简单的一种

importurllib

urllib.urlretrieve(url, filepath)

url为下载链接，filepath即为存放的文件路径+文件名

三、使用正则表达式分析网页

将网页源码抓取下来后，就需要分析网页，过滤出要用到的字段信息，通常的方法是用正则表达式分析网页，一个例子如下：

importre

content = ''

match = re.compile(r'(?<=href=["]).*?(?=["])')

rawlv2 = re.findall(match,content)

用re.compile()编写匹配模板，用findall查找，查找content中所有与模式match相匹配的结果࿰

最低0.47元/天解锁文章

weixin_39996742

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。