python soup findall div tr td_如何解析HTML表格Python和beautifulsoup并写入到CSV

最新推荐文章于 2023-04-03 16:12:59 发布

weixin_39692623

最新推荐文章于 2023-04-03 16:12:59 发布

阅读量327

点赞数

文章标签： python soup findall div tr td

本文介绍如何使用Python的BeautifulSoup库从指定网页抓取货币汇率数据，通过定位特定表格单元格获取所需信息，并将其转换为CSV格式。关键步骤包括筛选包含货币数据的行，提取单元格内容，以及数据处理。

摘要由CSDN通过智能技术生成

I try to parse html page and fetch values for currencies and write to csv.

I have following code:

#!/usr/bin/env python

import urllib2

from BeautifulSoup import BeautifulSoup

contenturl = "http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily"

soup = BeautifulSoup(urllib2.urlopen(contenturl).read())

table = soup.find('div', attrs={'class': 'content'})

rows = table.findAll('tr')

for tr in rows:

cols = tr.findAll('td')

for td in cols:

text = td.find(text=True) + ';'

print text,

The problem is, that I do not know, how to retrieve only values for currency.

I tried some regexp like '^[0-9]{3}' - start with 3 digits but it doesn't work.

解决方案

You'd be much better off picking out specific cells in the table. The td cells with the cell_c class contain data you are interested in, and the last one is always the currency exchange rate:

rows = table.findAll('tr')

for tr in rows:

cols = tr.findAll('td')

if 'cell_c' in cols[0]['class']:

# currency row

digital_code, letter_code, units, name, rate = [c.text for c in cols]

print digital_code, letter_code, units, name, rate

With the data in separate variables, you can now turn the text to decimal numbers, store them in a database, whatever.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39692623

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python--爬虫（3）csv格式/xpath解析/词云分析

m0_37206112的博客

02-20

2247

CSV格式逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有...

html统计数字出现次数,Python+Selenium web抓取和统计HTML中某些文本数据的出现次数...

weixin_42388176的博客

06-04

490

请帮忙。我试图从一个网站获取数据，然后统计某些文本的出现次数。不幸的是，我不能提供实际的网站，但基本是这样。在网页被加载，我看到一个值列表，这些值位于表中(下面的代码反映了这一点)。页面看起来像这样。在页眉表1A00001号A00002型A00003型A00004型。。。。。。在A00500号上面的每一行(A00001-A00500)代表我需要单击的表a链接。此外，每个链接都指向一个我需要从中提取...

参与评论您还未登录，请先登录后发表或查看评论

抓取html table数据（python）

Jalen备忘录

07-11

2197

def parse_html_table(): """ pip install bs4 pip install lxml pip install html5lib pip install pandas """ from bs4 import BeautifulSoup import pandas as pd import r...

beautifulsoup爬取网页中的表格_带你用Python爬取全篇小说

weixin_39688378的博客

11-21

534

我小编这次又给大家带来了python爬虫案例，这次我们爬取小说内容，喜欢看小说的同学可以收藏起来了！！和上篇一样我们先来分析一下项目，整理一下我们的爬虫思路，理清大体结构，看看我们需要哪些工具：项目分析由于小编也不经常看小说所以就随便找了一个小说网站https://www.555x.org/我们首先来到网站的小说top榜查看一下网页源码还是可以清楚的看到top榜里的小说全都在<li>标...

pythonxpathtable_pythonxpathtable_使用xpath查找表元素中的所有tr？

weixin_33609020的博客

03-01

738

def parse_header(table):ths = table.xpath('//tr/th')if not ths:ths = table.xpath('//tr[1]/td') # here is the problem, this will find tr[1]/td in all html file insted of this table# bala bala something...

python分析HTML结构并提取数据

woshishui68892的博客

07-27

371

记录一下避免忘记，不写代码了，拍的图片

python soup findall div tr td_在python的BeautifulSoup中，只从表（td）中提取特定的行和列...

weixin_30898555的博客

02-09

950

我想从一个网站上搜集数据并将其写入CSV。示例代码包含“列名”和“值”。NumberCODENameCategoryVariation3259ABC123LAND 3 - Design Reference2 - Production Item Number 3259 - Reference Number ABC123CODE ABC123 3260XYZ453WATER 3 Control Ref...

python3-编写-域名访问状态获取-html展示【辅助src漏洞挖掘】

qq_26692927的博客

01-29

285

文章目录目录前言一、使用效果二、使用步骤 1.代码地址总结前言 src漏洞挖掘时，经常是会使用多个子域名探测工具，即便是中间的过程，每个工具会生成漂亮的资产展示页面但是不具有拓展性，而且过了几个月又得重新来一遍。还不如仅仅最初的收集采用最简单的多个工具综合子域名的结果，然后再进行之后的探测和分析挖掘工作。以下就是针对子域名文件的访问状态的展示脚本一、使用效果二、使用步骤 1.代码地址 https://codechina.csd.

python爬虫实战：爬取股票信息，对上交所和深交所所有的股票信息进行搜集

Romantic Chopin in C Sharp Minor

08-07

5585

要用到两个网站： 1.获取所有股票的名称的网址（这里指上交所和深交所的股票） https://www.banban.cn/gupiao/list_sz.html 2.获取单个股票的各类信息 https://gupiao.baidu.com/stock/股票名称.html ''' 要用到两个网站： 1.获取所有股票的名称的网址（这里指上交所和深交所的股票） https://www.b...

python进阶（爬虫 BeautifulSoup用法）

鲨鱼儿的博客

11-15

960

操作演示文件：文件名： webhtml.html <!DOCTYPE html> <html> <head> <title>漏斗图</title> <script type="text/javascript" src="./echarts.js"></script&am

用python获取一个网页里面表格的数据

最新发布

Candy_mi的博客

04-03

4531

一个简单的通过python获取网页里面表格数据的方法

玩转python爬虫，从简易到复杂

Wayne12081213的博客

10-23

1612

一. urllib urllib是python中自带的一个基于爬虫的模块作用：可以使用代码模拟浏览器发起请求使用流程：指定url 发起请求获取页面数据持久化存储 1. 第一个urllib爬虫程序 # 需求：爬取搜狗首页的页面数据 import urllib.request # 1. 指定url url = 'https://www.sogou.com/' # ...

pythontable处理_如何在使用python废弃wikitable时处理rowspan？

weixin_39531780的博客

02-03

188

这是这个问题唯一的解决办法。在这里，我将把rowspan，colspan table更改为simple table。我在这个问题上浪费了很多天，但没有找到简单而好的解决办法。在许多stackoverflow解决方案中，开发人员只抓取文本。但在我的例子中，我也需要url链接。所以，我写了这个代码。这对我有用# this code written in beautifulsoup python3.5#...

python爬虫系列（2）—— requests和BeautifulSoup

ZhangQiye1993的博客

10-31

528

本文主要介绍python爬虫的两大利器：requests和BeautifulSoup库的基本用法。 1. 安装requests和BeautifulSoup库可以通过3种方式安装： easy_install pip 下载源码手动安装这里只介绍pip安装方式： pip install requests pip install BeautifulSoup4 2. requests...

python爬取动态网页_如何使用Python抓取具有动态生成的URL的页面？

weixin_39662834的博客

11-23

202

I am trying to scrape http://www.dailyfinance.com/quote/NYSE/international-business-machines/IBM/financial-ratios, but the traditional url string building technique doesn't work because the "full-comp...

python soup findall div tr td_python提取页面信息beautifulsoup正则lxml

weixin_39824898的博客

12-08

116

# -*- coding: utf-8 -*-import refrom urllib.request import urlopenfrom urllib.request import Requestfrom bs4 import BeautifulSoupfrom lxml import etree#添加模拟浏览器协议头headers = {'User-Agent':'Mozilla/5.0 (...

Python爬取页面中的图片

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-06

1763

本实验任务主要基于ubuntu完成python对单个网页内容的爬取，完成对所需数据的采集。通过完成本实验任务，要求学生掌握python对网页数据的采集技能，为以后从事数据采集工程师奠定基础。完成实验实例，python语言爬取网址中的小说图片地址。Ubuntu、Python2.7.12、Tomcat打开获取数据的页面，进行对数据检索分析，找到要获取的数据，构建爬取思路。通过urllib2对页面进行请求，通过BeautifulSoup对请求的页面进行解析。对解析完的数据进行选取，获取重要数据。

python soup findall div tr td_关于python：Beautiful Soup并通过ID提取div及其内容

weixin_39787606的博客

12-08

1807

soup.find("tagName", {"id" :"articlebody" })为什么这不返回...标记和介于两者之间的内容？它什么也不返回。我知道一个事实，因为我正盯着它soup.prettify()soup.find("div", {"id" :"articlebody" })也无效。编辑：此帖子没有答案-如何删除它？我发现BeautifulSoup无法正确解析，这实际上可能意味...

python以某种编码进行打印_使用Python中的BeautifulSoup解析格鲁吉亚字符（编码问题）...

weixin_28867883的博客

01-29

我在Python 2.7中使用BeautifulSoup来解析HTML文件中的HTML表格内容 . 该脚本应该获取大量输入HTML文件(记事本说它们是没有BOM的UTF-8)找到文件中的第一个表，并将行和列打印成另一个.html或.txt文件，以某种人类可读的形式(一个一个输入文件的输出文件) .行和列中的数据是一堆格鲁吉亚字母字符，我猜想编码有问题 .BeautifulSoap说默认输出编码是U...

Python解析HTML：详解BeautifulSoup的使用

"这篇教程详细介绍了在Python环境下如何使用BeautifulSoup库解析HTML，提供了一种高效的方法来提取和处理HTML文档中的数据。" 在Python编程中，BeautifulSoup是一个强大的库，用于从HTML和XML文件中抽取数据。它将...