新手做的,很简单一个例子
首先打开网站页面
先简单梳理一下思路把,先确定一下爬取页面地址和所需信息在html中的位置
了链接为:
http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml
检查过后发现行情信在第二个table标签中的tbody标签中
本来想通过定位第二个tbody的标签的方式进行爬取,但是基础太差没有做出来(有知道的大佬可以在后面回复一下qwq)
先上代码吧,后面再慢慢一点点分析
import requests
import bs4
from bs4 import BeautifulSoup
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillulist(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('table', {'class': 'hq_table'}).children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string, tds[4].str