我是编程和python的新手。但是我想在python脚本中解析HTML。在
问题1:
本页是关于特定股份的财务信息。这四张表是关于:财务摘要
资产负债表
现金流
损益表。在
我想提取表3&4中的信息。这是我的代码:import urllib
from bs4 import BeautifulSoup
url = 'http://stock.finance.sina.com.cn/hkstock/finance/00759.html'
html = urllib.urlopen(url).read() #.read() mean read all into a string
soup = BeautifulSoup(html, "lxml")
table = soup.find("table", { "class" : "tab05" })
for row in table.findAll("tr"):
print row.findAll("td")
但是这个代码只能得到第一个表的信息。如何更改代码以获取第三和第四个表信息?我发现这4个表不包含唯一的id或类名,我不知道如何定位它们。。。。在
问题2:
这也是简体中文网页,如何保持原文输出?在
问题3:
在每个表格的右上角有一个下拉菜单,用于选择适当的期间,即:“全部”,“全年”,“半年”,“第一季度”,“第三季度”。urllib是否可以更改此下拉菜单?在
非常感谢。在