python实例代码爬虫_Python 爬虫实例

最新推荐文章于 2022-04-23 18:28:08 发布

weixin_39731623

最新推荐文章于 2022-04-23 18:28:08 发布

阅读量106

点赞数

文章标签： python实例代码爬虫

本文链接：https://blog.csdn.net/weixin_39731623/article/details/113511693

版权

本文介绍了一个简单的Python爬虫，通过urllib库抓取指定网页的源代码，利用正则表达式提取.htm链接，并将这些文件下载到本地D盘。实例展示了如何通过getHtml和getImg函数实现这一过程。

摘要由CSDN通过智能技术生成

下面是我写的一个简单爬虫实例

1.定义函数读取html网页的源代码

2.从源代码通过正则表达式挑选出自己需要获取的内容

3.序列中的htm依次写到d盘

#!/usr/bin/python

import re

import urllib.request

#定义函数读取html网页的源代码

def getHtml(url):

page = urllib.request.urlopen(url)

html = page.read()

return html

#从源代码通过正则表达式挑选出自己需要获取的内容

def getImg(html):

reg = r'href="(.*?\.htm)"'

imgre = re.compile(reg)

implist = re.findall(imgre,html)

#序列中的htm依次写到d盘

x = 0

for imgurl in implist:

urllib.request.urlretrieve(imgurl, 'D:\htm\%s.htm' % x)

x += 1

html = getHtml("http://www.10086.cn/hb/index_270_719.html")

html = html.decode('utf-8')

print(getImg(html))

运行程序结果：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39731623

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python实例代码爬虫_python 网络爬虫实例代码

weixin_34199121的博客

02-20

3117

本节内容：python 网络爬虫代码。一共两个文件，一个是toolbox_insight.py，是一个工具文件另一个是test.py，是一个用到toolbox_insight.py中工具的测试文件代码示例:#filename: toolbox_insight.pyfrom sgmllib import sgmlparserimport threadingimport timeimport url...

爬虫开发Python实例代码.zip

最新发布

04-07

爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例代码.zip爬虫开发Python实例...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫代码示例

08-24

Python爬虫的代码示例，包括表单提交、爬取子网页等等

Python爬虫示例代码

12-19

上七月算法 Python爬虫班第一课示例代码

python爬虫代码实例源码_三个python爬虫项目实例代码

weixin_39640414的博客

11-20

860

这篇文章主要介绍了三个python爬虫项目实例代码,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下爬取内涵段子：#encoding=utf-8import urllib2import reclass neihanba():def spider(self):'''爬虫的主调度器'''isflow=True#判断是否进行下一页page=1while i...

python示例代码爬虫_python如何示例爬虫代码

weixin_42459611的博客

02-04

214

python爬虫代码示例的方法：首先获取浏览器信息，并使用urlencode生成post数据；然后安装pymysql，并存储数据到MySQL即可。python爬虫代码示例的方法：1、urllib和BeautifuSoup获取浏览器信息from urllib import requestreq = request.urlopen("http://www.baidu.com")print(req.re...

python爬虫代码示例分享

Z_Silence的博客

03-06

993

这篇文章主要介绍了三个python爬虫项目实例代码，使用了urllib2库，文中示例代码非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友可以参考下。 python爬虫代码示例分享一、爬取故事段子：推荐学习：Python视频教程注：部分代码无法正常运行，但仍有一定的参考价值。 #encoding=utf-8 import urllib2 import re class n...

weibo_spider_爬虫python_关键词爬虫_python_python爬虫_spider.zip

10-10

这种爬虫通常会涉及网络请求、HTML解析、数据存储等多个环节，是学习和实践Python爬虫技术的一个实例。标签为"源码"，意味着这个压缩包里包含的是可读和可执行的代码文件，可能是.py格式的Python源代码文件，用户...

网络爬虫-Python和数据分析_爬虫python_爬虫python_爬虫_materialii2_python_

10-01

《网络爬虫-Python和数据分析》是一本深入探讨Python编程技术在数据抓取与分析领域的专业书籍。本书针对想要学习和提升网络爬虫技能以及掌握Python数据分析基础的读者，提供了全面且实用的知识体系。首先，Python...

python 爬虫实现增量去重和定时爬取实例_python增量爬虫_爬虫实现增量去重和定时爬取实例_python_wherev

09-30

Python爬虫技术在数据获取和信息处理中扮演着重要角色，尤其在大数据时代，高效、自动化的数据抓取成为必需。本实例将深入探讨如何利用Python实现增量去重和定时爬取，帮助我们构建更加智能和实用的爬虫程序。首先...

python3爬虫实例代码

03-27

简单强大的Python，福利分享~代码实例。~~~~~~~~~~~~~

python代码爬虫案例代码

03-09

此包中为python爬虫的基本使用情况，包括案例代码，爬虫的入门操作

python 爬虫实例

05-01

编译后的，需要源码的，可以问我要（443413854），如果不能执行，需要安装python 32位环境

python爬虫实例

08-15

网络爬虫python实例，利用selenium组件爬取网页元素，也可以作为网页自动化测试学习脚本

python的经典爬虫_python爬虫经典例子有哪些

weixin_39635432的博客

12-06

173

python爬虫例子：首先导入爬虫的库，生成一个response对象；然后设置编码格式，并打印状态码；最后输出爬取的信息，代码为【print(response.text)】。python爬虫例子：1.爬取强大的BD页面，打印页面信息# 第一个爬虫示例,爬取百度页面import requests #导入爬虫的库，不然调用不了爬虫的函数response = requests.get("http://w...

python爬虫实例-10个python爬虫入门实例

weixin_37988176的博客

11-01

231

昨天带伙伴萌学习python爬虫，准备了几个简单的入门实例涉及主要知识点:web是如何交互的requests库的get、post函数的应用response对象的相关函数，属性python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好python的朋友可以直接参考，没有的，建议先装一哈python环境)windows用户，Linux用户几乎一样:打开cmd输入...

python 爬虫代码实例

qq_52394459的博客

04-23

6287

什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。爬虫的本质是什么？模拟浏览器打开网页，获取网页中我们想要的那部分数据浏览器打开网页的过程：当你在浏览器中输入地址后，经过DNS服务器找到服务器主机，向服务器发送一个请求，服务器经过解析后发送给用

Python爬虫实战：架构、模块与实例解析

"本文将深入探讨Python爬虫实例的实现，重点围绕爬虫技术架构及其关键组成部分进行详细讲解。首先，我们将介绍爬虫的基本工作流程，包括程序入口函数——爬虫调度段，这个函数负责启动整个爬虫过程，并通过URL管理器...