python爬网站数据实例-python抓取简单网页数据的小实例

最新推荐文章于 2024-05-14 06:48:47 发布

weixin_37988176

最新推荐文章于 2024-05-14 06:48:47 发布

阅读量814

点赞数

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：

目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

bVlgra

数据请求

真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例，包含获取标签、链接，以及根据html层次结构遍历等方法。参考见这里。下面这个片段，从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)

doc = requests.get(url).text

soup = BeautifulSoup(doc)

atags = soup.find_all('a')

rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')

for atag in atags:

#print atag

if atag!=None and atag.get('href') != None:

if "WR_Table_3_A2_Details.asp" in atag['href']:

link = rank_link_pre + atag['href']

links.append(link)

mlfile.write(link+' ')

print 'fetch link: '+link

mlfile.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python读取网页三种基本方式

高智商坏蛋的博客

05-19

1万+

环境：win7、pycharm、python2 所用到的库：urllib2注意：python2 不同于python3 在python2中要注意编码问题（爬取网页会涉及到中文要写：#coding:utf-8）#coding:utf-8 print "hello" #中国 python2中要注意编码问题，头部要加coding=utf-8读取网页第一种方式：import urllib2 def down...

python爬网站数据实例-python通过token登录，并爬取数据实例

weixin_37988176的博客

10-29

1393

from bs4 import BeautifulSoupimport requestsclass Zabbix(object):def __init__(self, headers):self.session = requests.Session()self.headers = headersdef func(self):headers={'Host':'172.28.14.165','Upgr...

参与评论您还未登录，请先登录后发表或查看评论

python 0基础怎么学-零基础Python新手应该怎么去学习？

weixin_39719165的博客

11-11

264

虽然我不是Python高手，但我是零基础，之前会的都是软件PS，PPT之类。点击链接加入群【我爱python大神】：https://jq.qq.com/?_wv=1027&k=47zuLPd如果目的是想成为程序员，参考教学大纲。如果只是学程序，理解科技，解决工作问题，我的方式可以参考使用：1，找到合适的入门书籍，大致读一次，循环啊判断啊，常用类啊，搞懂（太难的跳过）2，做些简单习题，字符串比较，读...

python读取网页

THE DOOR IS CHANGING

05-10

613

python为访问网络提供了强大的支持，我们可以使用程序自动读取网页，而urllib是完成这种任务的最佳选择。实例：读取百度首页的网页内容 import urllib2 html=urllib2.urlopen("http://www.baidu.com") content = html.read() print(content)实例2：在默认浏览器中显示雅虎的首页： impo

python3获取网页内容_python3获取一个网页特定内容

weixin_39783426的博客

11-21

351

我们今天要爬取的网址为：https://www.zhiliti.com.cn/html/luoji/list7_1.html一、目标：获取下图红色部分内容即获取所有的题目以及答案。二、实现步骤。分析：1，首先查看该网站的结构。分析网页后可以得到：我们需要的内容是在该网页标签下，详细内容链接在的的href中。但是这样我们最多只能获取这一页的内容别着急我们点击第二页看一下目标网址有什么变化我们发现目标...

网页版python怎样加载文件_Python读取本地文件并解析网页元素的方法

weixin_39649405的博客

11-29

103

如下所示：from bs4 import BeautifulSouppath = './web/new_index.html'with open(path, 'r') as f:Soup = BeautifulSoup(f.read(), 'lxml')titles = Soup.select('ul > li > div.article-info > h3 > a')for title in t...

Python爬虫实例爬虫实例-城市公交网络站点数据的爬取方法城市公交网络站点数据的爬取

11-02

本实例将详细讲解如何利用Python爬虫技术来抓取城市公交网络站点的数据。首先，我们需要了解Python爬虫的基本概念。Python爬虫是通过编写特定的代码，模拟浏览器行为，向服务器发送请求，获取网页内容，并解析这些...

Python爬虫实例项目：一个简单的Python爬虫实例项目，包括从一个网站上抓取数据并存储到本地文件中.txt

最新发布

09-03

Python爬虫是一种使用Python编程语言编写的自动化脚本，用于从网站上抓取数据。爬虫可以用于多种用途，如数据收集、市场研究、网站监控等。以下是Python爬虫的基础知识、爬虫实例项目资源的详细讲解。 Python爬虫...

Python自动办公实例-在Excel中按条件筛选数据并存入新的表.zip

11-30

使用requests和BeautifulSoup库，我们可以抓取网页数据并进行处理。在游戏开发中，Python可以作为脚本语言，用于游戏逻辑控制、AI算法实现等。同时，Python在数据分析领域也有广泛应用，例如通过matplotlib和seaborn...

python使用自定义user-agent抓取网页的方法

12-24

本文实例讲述了python使用自定义user-agent抓取网页的方法。分享给大家供大家参考。具体如下：下面python代码通过urllib2抓取指定的url的内容，并且使用自定义的user-agent，可防止网站屏蔽采集器 import urllib2 ...

Python抓取网页代码

08-07

Python抓取网页代码抓取了国家环境网站上的一组AQI数据

Python教程4 常用读取网页代码

Deveuper的博客

03-20

242

常用time.sleep(60)

python读取本地网页_Python读取本地文件并解析网页元素的方法

weixin_42502736的博客

02-21

1084

如何用python爬取网站数据,python如何爬取网页数据

降AIGC工具

05-14

1027

今天为大家带来的内容是4个详细步骤讲解Python爬取网页数据操作过程！(含实例代码）本文具有不错的参考意义，希望在此能够帮助到大家！**提示：**由于涉及代码较多，大部分代码用图片的方式呈现出来！

零基础Python抓取网页（一）

WZT725的博客

06-16

412

Python爬虫入门

python请求网页、获取网页信息_python网页信息抓取

weixin_39933484的博客

11-28

1037

自动抓取网页信息，也就是爬虫，一般通过js或者python都可以较方便的实现。都是通过模拟发送页面请求，然后解析html页面的元素来提取信息。function wraperAxiosHour(cityCode) {return new Promise((resolve, reject) => {const url = `http://www.weather.com.cn/weather1dn/${...

Python爬取简单网页内容

啊哈呀的博客

11-29

7008

Python爬取简单网页内容分享一下第一次学习爬虫的过程。之前一直有听说过爬虫，但是也没有接触过爬虫。在需要爬取网页信息的时候，才开始着手学习爬虫。Python爬虫有很多种方法，例如使用scrapy,xpath,panda等，都可以实现爬取网页内容的需求。今天要分享的是我学习爬虫的第一种方法。使用最原始的正则，去匹配网页中的内容。 1.导入re模块 re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用

python抓取网页数据并截图_网络爬虫－使用Python抓取网页数据

weixin_39915668的博客

11-29

668

搬自大神boyXiong的干货！闲来无事，看看了Python，发现这东西挺爽的，废话少说，就是干准备搭建环境因为是MAC电脑，所以自动安装了Python 2.7的版本添加一个库 Beautiful Soup ,方法这里说两种1.在终端输入 pip install BeautifulSoup2.手动下载包后，终端切换到解压的文件夹，输入 sudo python setup.py install ...

如何用Python获取网页指定内容