目标是爬取ebay'上的二手乐高数据,并使用岭回归交叉验证的方式给出回归方程
from bs4 import BeautifulSoup
import numpy as np
import random
def scrapePage(retX, retY, inFile, yr, numPce, origPrc):
# 打开并读取HTML文件
with open(inFile, encoding='utf-8') as f:
html = f.read()
soup = BeautifulSoup(html)
i = 1
# 根据HTML页面结构进行解析
currentRow = soup.find_all('table', r = "%d" % i)
while(len(currentRow) != 0):
currentRow = soup.find_all('table', r = "%d" % i)
title = currentRow[0].find_all('a')[1].text
lwrTitle = title.lower()
# 查找是否有全新标签
if (lwrTitle.find('new') > -1) or (lwrTitle.find('nisb') > -1):
newFlag = 1.0
else:
newFlag = 0.0
# 查找是否已经标志出售,我们只收集已出售的数据
soldUnicde = currentRow[0].find_all('td')[3].find_all('span')
if len(soldUnicde) == 0:
print("商品 #%d 没有出售" % i
Part2-Chapter8-预测乐高玩具套装价格
最新推荐文章于 2022-08-07 22:26:25 发布
本文探讨如何利用数据和机器学习技术预测乐高玩具套装的价格。通过收集多个因素,如套装大小、稀有度、年份等,建立预测模型,帮助爱好者和投资者了解市场趋势。
摘要由CSDN通过智能技术生成