python写爬虫2-数据抓取的三种方式

最新推荐文章于 2024-07-07 08:00:00 发布

皓阳当空

最新推荐文章于 2024-07-07 08:00:00 发布

阅读量4.6k

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/apple9005/article/details/54930982

版权

爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

python写爬虫2-数据抓取的三种方式

常用抽取网页数据的方式有三种：正则表达式、Beautiful Soup、lxml

1.正则表达式

正则表达式有个很大的缺点是难以构造、可读性差、不易适用未来网页的变化。写一段伪代码：

import re
url = 'http://xxxx.com/sdffs'
html = download(url)
re.findall('正则表达式', html)

2.Beautiful Soup

这是一个非常流行的python模块。安装命令如下：

pip  install beautifulsoup4

使用此模块的第一步是将已下载的html内容解析为soup文档。因许多html网页格式不规范，Beautiful Soup可对其进行确定，将其调整为规范的html文件。
这里写图片描述

3.Lxml

Lxml是基于libxml2这一XML解析库的python封装。该模块使用c语言编写，解析速度比Beautiful Soup更快。
安装命令如下：

pip install lxml
pip install cssselect

如下代码，从html中获取class=country的ul标签下，li标签id=a的文本，获取li标签class=b的文本
这里写图片描述

4.三种方式的比较

抓取方法	性能	使用难度	安装难度
正则表达式	快	困难	简单（内置模块）
Beautiful Soup	慢	简单	简单（纯python）
Lxml	快	简单	相对困难

通常，lxml是抓取数据最好的选择，因为该方法既快速又健壮，而正则和Beautiful Soup只在某些特定场景下用。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

皓阳当空

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫抓取数据

sterson的博客

09-30

1万+

Python爬虫抓取动态数据

liuph_的博客

07-02

1万+

一个月前实习导师布置的任务，通过网络爬虫获取深圳市气象局发布的降雨数据。界面如下。心想，爬虫不太难的，当年跟zjb爬煎蛋网无（mei）聊（zi）图的时候，多么清高。由于接受任务后的一个月考试加作业一大堆，导师也不催，自己也不急。但是，导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的，数据动态获取，所以无法通过下载源代码然后解析获得

1 条评论您还未登录，请先登录后发表或查看评论

python爬虫（2）——编写一个爬虫

diaodongqi2084的博客

02-12

109

一、URL的编码与解码　　　　在python2中包含的urllib和urllib2，都是接受URL请求相关的模块。但是在python3中，却没有urllib2。实际上urllib2的功能在python3中可以用urllib来实现。　　通常编码工作，我们使用urllib.parse.urlencode()函数，帮我们将key:value（类似于python的字典）这样的键值对转换成...

【吐血整理】Python爬虫实战！从入门到放弃，手把手教你数据抓取秘籍

最新发布

eclipsercp的博客

07-07

3739

网络爬虫，又称为网页蜘蛛或爬虫，是一种用来自动浏览万维网的程序。它按照一定的算法顺序抓取网页内容，同时将抓取到的数据存储起来，用于进一步的分析和处理。定义：网络爬虫是一个自动提取网页的程序，它从互联网上采集网页并提取其中的信息。重要性：网络爬虫在信息获取、数据挖掘、搜索引擎构建等方面发挥着关键作用。它帮助我们从海量的网络信息中提取有价值的数据，为大数据分析、市场研究、学术研究等提供原始材料。

使用爬虫抓取网页内容

前端精髓

09-09

1万+

对于爬虫我们首先想到的是 python，但是对于前端来说我们通常是 node 来写爬虫，去抓取网站的数据而已。爬虫的基本流程 1、发起请求使用http库向目标站点发起请求，即发送一个Request，第三方请求库如 request，axios 等。 Request包含：请求头、请求体等 2、获取响应内容如果服务器能正常响应，则会得到一个Response Response包含：html，json，图片，视频等 3、解析内容解析html数据：正则表达式，第三方解析库如cheerio，PhantomJS.

python数据抓取

Itsme_MrJJ的博客

05-24

6147

一、页面分析二、网页抓取方法 1、正则表达式方法 2、BeautifulSoup 模块 3、lxml 模块 4、各方法的对比总结三、Xpath选择器四、CSS选择器五、数据抓取总结

01-Python爬虫工程师-App数据抓取

02-22

Python爬虫工程师-App数据抓取思维导图，便捷整理思路，目标、对项目、公司、个人的意义、爬虫工程师技术储备

11-Python爬虫工程师-App抓取进阶

03-05

Python工程师-APP实战思维导图，便捷整理思路，目标任务，SSL Pinning技术和Xposed框架，多任务端

Python网络爬虫技术-教学大纲.pdf

05-29

课程的主要任务是让学生掌握Python爬虫的基本概念、原理，以及如何在不同类型的网页中抓取数据。内容涵盖了静态网页、动态网页、需要登录的网页、PC客户端和移动APP的数据爬取，并涉及到反爬虫策略和应对方法。此外...

Python爬虫抓取2017-2019年上海天气数据

08-17

学习和实践这个案例，不仅可以加深对Python爬虫的理解，还能提高数据处理和分析的能力。同时，它提醒我们尊重网站的robots.txt规则，遵守网络爬虫的道德规范，避免对网站造成不必要的负担。在实际应用中，我们还需要...

Python网络爬虫技术-源代码和实验数据.rar

12-20

这个"Python网络爬虫技术-源代码和实验数据.rar"压缩包包含了一系列的源代码示例和实验数据，旨在帮助学习者深入理解Python爬虫的工作原理与实践应用。首先，我们来详细探讨Python网络爬虫的基础知识。Python作为...

爬虫抓取网页数据

07-23

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。具体功能是，通过scrapy和Python编程对BBS网站进行抓取数据。

爬虫获取的数据，一些可能能用的ip地址，化学品供应信息

10-20

主要是python 爬虫获取的数据。包括化学品供应信息.xls和西刺网站IP地址.xls 如有需要的话，请下载

python从零开始写爬虫（2）

菜头笔记

01-12

1848

好了直接进入主题编写一个简单的爬虫例子：主要是爬新浪新闻最新消息的数据http://news.sina.com.cn/china/ 1.打开新闻网，定位到最新消息这里： 2.试着先用python请求该链接，具体操作如下： import requests newurl = 'http://news.sina.com.cn/china/' res = requests.get(new

爬虫爬取数据

weixin_55069111的博客

05-10

3126

打开爬取工具页面，使用爬虫工具列表：开始节点仅仅是爬虫的起点,所有流程图必须有该节点。爬取节点该节点用于请求HTTP/HTTPS页面或接口请求方法：GET、POST、PUT、DELETE等方法 URL: 请求地址延迟时间：单位是毫秒，意思是爬取之前延迟一段时间在执行抓取超时时间：网络请求的超时时间，单位也是毫秒代理：请求时设置的代理，格式为host:port 如 192.168.1.26:8888 编码格式：用来设置页面的编码格式默认为UTF-8，当解析出现乱码时，可以修改此值跟随重定向.

Python爬虫利器一之Requests库的用法

05-21

121

静觅»Python爬虫利器一之Requests库的用法前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注：Python 版本依然基于 2.7 官方文档以下内容大多来自...

爬虫原理与数据抓取

kai46385076的专栏

10-29

960

为什么要做网络爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询爬取网络数据：如果需要的数据市场上没有，或者不愿意购买...

记录一次爬虫抓取数据的过程

weixin_30662011的博客

04-26

238

第一次编写python脚本，爬取了一些数据，供公司内部使用，抓取到json格式数据之后，导入到Excel中进行排序筛选并图表化，得到了一些分析结果，虽然简单，但很有意义。也可以算是对爬虫有了一个入门，接下来会学习一些数据挖掘，数据清洗相关的内容，数据的清洗分析也是很有意思的下边是经过简化后的代码： 1 import time 2 import requests 3 im...

python爬虫入门，轻松爬取网页上的数据(非常详细)