使用 python 抓一个网页

最新推荐文章于 2024-11-02 22:17:47 发布

iteye_16613

最新推荐文章于 2024-11-02 22:17:47 发布

阅读量73

点赞数

分类专栏： python 文章标签： python 爬虫 beautifulsoup

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

要抓取一个网站,要解决下面几个问题

beautiful soup 文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

1.用python模拟useragent为android的浏览器：

useragent = "Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"
url = "http://xxx"
request = urllib2.Request(url)
request.add_header('User-Agent',useragent)
html = urllib2.urlopen(request,timeout=5).read()

#url编码
urllib.quote(‘abc edf')

2.beautiful soup 用的最多的一些方法

soup = BeautifulSoup(html)
print soup.strong.string
print soup.find("div",class_='xxx').string
print soup.find("span",class_='pos').next_sibling.string
oneDiv.next_sibling.a.get("href")

获取一个div，并且class='xxx' 的一个div，.string 为获取这个div里的文本。

.next_sibling 下一个同级节点。

3.正则提取文本中以http开头和以html结尾的文本：

p=re.compile(r"""(http://.*.html)""").search(oneString)
if p:
        return p.group(1)

4.下载文件

urllib.urlretrieve("http://xxx/asd.jpg",'apple.jpg')

抓取就可以开始了，然后对应上出现的一场来解决问题就行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_16613

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python抓去网页

weixin_34345753的博客

08-23

最近自己要写一个爬虫，需要抓取网页，然后看了一些别人的技术博客，发现里面都是用python3实现的，因为本人机器上一直搭建的平台是python2.7，因此，在调用包的时候出现一点差别，最后也是多番尝试，实现python 3中的urllib module到python 2.x的urllib和urllib2的调用的一些转换：由于python 3中将urllib 分成了 ...

使用 Python 进行网页抓取

热门推荐

前端好玩的小案例、游戏、工具

12-30

3万+

面对铺天盖地的大数据，怎样才能快速发现其中的趋势、找到数据走势，从而改变工作模式，这是摆在数据工作者面前的难题。如果您知道如何做到这一点，那么对于企业和个人使用来说，网络抓取似乎是一种非常有用的节省时间的工具。我们将重点介绍为什么您应该使用 Python 进行网页抓取，并为您提供有关如何完成它的快速教程，包括使用哪些Python 开发工具。因此，下一步是部署抓取程序，将信息复制到您请求的数据库中。要获得您希望抓取为Python友好格式的信息，您需要使用执行HTTP请求的Python包。

参与评论您还未登录，请先登录后发表或查看评论

使用Python爬取一个网页的全部域名

林长有的博客

04-14

2679

''' 使用Python爬取一个网页的全部域名 ''' #coding:utf-8 import requests import re from lxml import etree from urllib.parse import urlparse domains = set() # 域名去重列表，默认为空 # 方法一：使用正则匹配 domain = 'https://www.baidu....

如何用python获取一个网页的所有连接

weixin_46704937的博客

09-21

1471

如何用python获取一个网页的所有连接

使用 Python3 获取网页源代码

u014695938的博客

12-23

8799

爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。

用python获取一个网页里面表格的数据

Candy_mi的博客

04-03

4581

一个简单的通过python获取网页里面表格数据的方法

Python抓一个网页上的所有图片

you are sherlocked by me!

11-04

3466

这个是爬虫的入门，因此没有用到深度优先和广度优先算法，只是简单的抓取一个页面上的所有图片思路: 1.首要步骤就是要知道这个网页的网址和这个网页的html代码，你可以在firefox、chrome中使用开发者工具或者鼠标右键选择审查元素查看代码 2.查看你要找的图片的格式，使用正则表达式表达出来，然后开始写代码其中的dir你可以根据你的需要来自己设置 # -*- coding: utf

python操控chrome抓网页

咖啡花园

01-28

2023

通过chrome浏览器直接打开目标网站，然后直接抓取里面的前端代码，可以让我们不必分析、破解目标网站的接口加密规则，因为对于非目标网站的内部人员来说，这个工作可没有那么简单。首先要了解的是，WebDriver是一个开源工具，用于跨多个浏览器自动测试Web应用程序，它提供了导航到网页、用户输入、JavaScript执行等功能。 Python的Selenium库是WebDriver的Python语言...

python爬虫抓取网页图片教程

专注java二开部署

12-02

2545

在使用爬虫时，一定要遵守网站的robots.txt文件和其他相关规定，以合法和负责任地使用爬虫。请注意，这只是一个简单的示例，实际爬取过程中可能需要处理各种情况，例如处理JavaScript生成的内容、处理网页的编码问题、处理爬虫的频率限制等等。或者，如果你想爬取的是特定格式的图片（例如JPEG或PNG），你可能需要使用更复杂的逻辑来过滤和下载这些图片。最后，在使用爬虫时，一定要遵守网站的robots.txt文件和其他相关规定，以合法和负责任地使用爬虫。在Python中，你可以使用。

python爬虫爬取网页图片

m0_56051805的博客

12-22

1万+

python爬虫爬取网页上的图片

使用Python3编写抓取网页和只抓网页图片的脚本

12-23

最基本的抓取网页内容的代码实现： #!/usr/bin/env python from urllib import urlretrieve def firstNonBlank(lines): for eachLine in lines: if not eachLine.strip(): continue else: return eachLine ...

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓

09-11

网页抓取的另一个关键方面是处理JavaScript渲染的页面。许多现代网站使用AJAX技术动态加载内容，这些内容在原始HTML中不可见。为了抓取这种内容，可以使用`Selenium`库，它允许模拟浏览器行为。安装`Selenium`（通常...

Python实现抓取网页生成Excel文件的方法示例

09-21

1. **PyQuery模块**：PyQuery是一个Python库，它的API设计与jQuery非常相似，可以方便地解析和操作HTML或XML文档。在本示例中，PyQuery用于解析网页内容，提取我们需要的数据。 2. **URL请求**：Python的`urllib2`...

Day21包和模块

weixin_50199478的博客

10-30

590

一个.py文件就是一个模块。模块是含有一系列数据、函数、类等的程序。包是将模块以文件夹的组织形式进行分组管理的方法，以便更好地组织和管理相关模块。包是一个包含一个特殊的__init__.py文件的目录。

01_IAR新建CC2530工程

nanxl1的博客

11-02

726

由于很多Zigbee商家提供的教程未有从零建立CC2530工程的讲解，可能会导致后面的开发中出现一些琐碎的问题。本文将以**LED流水灯**为例，从0到1用**IAR**建立CC2530工程。

cleanfid库的fid使用，及其使用CLIP模型clip_vit_b_32计算FID

百年孤独百年的博客

11-02

687

这篇博客详细介绍了如何使用 cleanfid 库计算 Fréchet Inception Distance (FID)，特别是利用 CLIP 模型 clip_vit_b_32 计算 FID 分数来评估生成图像的质量。内容涵盖了 FID 的概念和原理、cleanfid 库的安装与配置、从缓存中加载与手动加载模型的方法，以及解决可能遇到的依赖问题。通过这篇教程，可以掌握使用 cleanfid 库计算fid的完整流程，并能够解决服务器环境中遇到的联网与模型下载问题。

Golang--DOS命令、变量、基本数据类型、标识符