天池数据集|精品数据集推荐(工业篇)

数据是人工智能时代重要的生产要素,高质量训练数据对深度学习模型的建立和优化有关键性的作用,建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。

制造业是我国国民经济的主体,推动数字化转型,降本增质提速是当今制造业的发展方向。天池通过举办大数据竞赛,希望通过技术创新的方式来推动了产业的创新发展。AI模型的落地离不开高质量数据集的支撑,天池平台开放出一批高标准严要求下真实业务场景的数据,涵盖纺织、食品饮料、非金属制品等行业,小萌喵今天就带大家一起来看看天池上开放的工业数据集。

布匹瑕疵检测数据集

研究方向:工业质检/目标检测

2016年我国布匹产量超过700亿米且产量一直处于上升趋势。布料与人们日常生活接触密切,纺织行业在我国国民经济中所占的地位不言而喻。工厂生产时,对大量布匹的质检通常都是工人肉眼完成的,这种形式检测速度慢、劳动强度大,而且受到工人主观因素影响,将人工智能和计算机视觉技术应用于纺织行业,可以进一步助力纺织行业的自动化,降低对人工的依赖,提升布匹疵点检验的准确度,提升布样疵点质检的效果和效率。

 天池开放布匹疵点数据集,包含瑕疵各异的布匹照片,每张照片含素色布的一个或多种瑕疵。

了解更多详情/下载使用数据集请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=79336

图片

图1:瑕疵图示(黄色框为瑕疵部分)

瓶装白酒疵品检测数据集

研究方向:工业质检/目标检测

与布匹生产流程类似,在瓶装酒的生产过程中,受到原材料质量(酒瓶)以及加工工艺(灌装)等因素的影响,产品中可能存在各类瑕疵影响产品质量。但跟布匹不同的是,酒瓶上的瑕疵面积较小不容易被发现,并且瑕疵种类多,通常一条产线一般需要有三到五个质检环节分别检测不同类型的瑕疵。目前瓶装酒厂家只能选择投入大量人力用于产品质检。如果可以引进高效、可靠的自动化质检可以降低大量人工成本同时提高质检效,是非常有意义的工作。

天池提供白酒疵品数据集,数据集中白酒瓶身存在的各种瑕疵,包括:瓶盖瑕疵、标贴瑕疵、喷码瑕疵。

如需查看数据集更多详细内容请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110147

图片

图2:瓶盖变形、瓶盖坏边示意图

瓷砖表面暇疵检测数据集

研究方向:工业质检/目标检测

以抛釉砖为例的瓷砖生产环节一般经过原材料混合研磨、脱水、压胚、喷墨印花、淋釉、烧制、抛光,最后进行质量检测和包装。得益于产业自动化的发展,目前生产环节已基本实现无人化。而质量检测环节仍大量依赖人工完成。一般来说,一条产线需要配2~6名质检工,这样的质检方式效率低下、质检质量层次不齐、成本又居高不下。瓷砖的表面是用户衡量瓷砖质量的最直观标准,是瓷砖行业生产和质量管理的重要环节,也是困扰行业多年的技术瓶颈,同时长时间肉眼在强光下观察瓷砖表面寻找瑕疵也对工人的视力也会产生影响。如果能在技术上解决上述问题,无疑是有很大的经济价值和社会意义。

为了推动AI技术应用到传统的行业,天池推出瓷砖数据集,该数据集内含的数据覆盖到了瓷砖产线所有常见瑕疵,包括粉团、角裂、滴釉、断墨、滴墨、B孔、落脏、边裂、缺角、 砖渣、白边等。还有一些缺陷只能在特定视角才可以观察,包括低角度光照黑白图、高角度光照黑白图、彩色图,保证覆盖到生产环境中产生的所有瑕疵能被识别,是国内首个聚焦在瓷砖瑕疵质检的数据集。数据集下载请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110088

图片

图3:瓷砖瑕疵质检过程

以上所有数据都是在专业人员指导下,通过产线上架设专业拍摄设备、实地采集生产过程真实的数据,保证了数据来源的可靠性和科学性。

在数据标注过程中,达摩院的算法专家们对数据质量进行了全程把关,保证了天池数据集的质量。

关于天池数据集

天池数据集是阿里集团的科研数据集开放平台,数据集覆盖了新零售、文娱、医疗健康、交通、安全、能源、自然科学等十多个行业,涵盖了数据挖掘、机器学习、自然语言处理、计算机视觉、决策优化等前沿的技术领域。小伙伴们可以点击下方阅读原文进入官网进行查看,还有更多宝藏数据等你发现。

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
这是由美联储经济数据库(FRED)托管的美联储数据集。有关每个文件的更多详细信息,请参见各个文件的说明。 industrial-production-business-equipment_metadata.json industrial-production-consumer-goods_metadata.json industrial-production-durable-consumer-goods_metadata.json industrial-production-durable-goods-raw-steel_metadata.json industrial-production-durable-manufacturing-motor-vehicles-and-parts_metadata.json industrial-production-durable-materials_metadata.json industrial-production-electric-and-gas-utilities_metadata.json industrial-production-electric-and-gas-utilities_metadata_1.json industrial-production-final-products-and-nonindustrial-supplies_metadata.json industrial-production-final-products-market-group_metadata.json industrial-production-fuels_metadata.json industrial-production-manufacturing-naics_metadata.json industrial-production-manufacturing-naics_metadata_1.json industrial-production-manufacturing-sic_metadata.json industrial-production-materials_metadata.json industrial-production-mining_metadata.json industrial-production-mining-crude-oil_metadata.json industrial-production-nondurable-consumer-goods_metadata.json industrial-production-nondurable-materials_metadata.json industrial-production-residential-utilities_metadata.json industrial-production-total-index_metadata.json IPB50001N.csv IPB51222S.csv IPBUSEQ.csv IPCONGD.csv IPDCONGD.csv IPDMAT.csv IPFINAL.csv IPFPNSS.csv IPFUELS.csv IPG2211A2N.csv IPG3361T3S.csv IPG211111CN.csv IPGMFN.csv IPMAN.csv IPMANSICS.csv IPMAT.csv IPMINE.csv IPN3311A2RN.csv IPNCONGD.csv IPNMAT.csv IPUTIL.csv
以下是使用pyspark对天池二手车价格预测数据集进行模型训练和预测的代码: 首先,我们需要导入必要的库和读取数据集: ```python from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAssembler from pyspark.ml.regression import LinearRegression # 创建SparkSession spark = SparkSession.builder.appName("UsedCarPricePrediction").getOrCreate() # 读取数据集 data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("data.csv") ``` 接下来,我们需要进行数据预处理,包括特征工程和数据清洗: ```python # 特征工程 assembler = VectorAssembler(inputCols=["Brand", "Body", "Mileage", "EngineV", "Engine Type", "Registration", "Year"], outputCol="features") data = assembler.transform(data) # 数据清洗 data = data.select("Price", "features").na.drop() ``` 然后,我们将数据集分为训练集和测试集,用训练集训练线性回归模型: ```python # 将数据集分为训练集和测试集 (trainingData, testData) = data.randomSplit([0.7, 0.3], seed=100) # 训练线性回归模型 lr = LinearRegression(featuresCol="features", labelCol="Price", maxIter=10, regParam=0.3, elasticNetParam=0.8) model = lr.fit(trainingData) ``` 最后,我们用测试集进行模型评估和预测: ```python # 模型评估 predictions = model.transform(testData) predictions.select("prediction", "Price", "features").show() # 预测单个数据 single_data = spark.createDataFrame([(2013, "Audi", "suv", 120000, 2.0, "Diesel", "yes")], ["Year", "Brand", "Body", "Mileage", "EngineV", "Engine Type", "Registration"]) single_data = assembler.transform(single_data) prediction = model.transform(single_data) prediction.select("prediction").show() ``` 完整代码如下: ```python from pyspark.sql import SparkSession from pyspark.ml.feature import VectorAssembler from pyspark.ml.regression import LinearRegression # 创建SparkSession spark = SparkSession.builder.appName("UsedCarPricePrediction").getOrCreate() # 读取数据集 data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("data.csv") # 特征工程 assembler = VectorAssembler(inputCols=["Brand", "Body", "Mileage", "EngineV", "Engine Type", "Registration", "Year"], outputCol="features") data = assembler.transform(data) # 数据清洗 data = data.select("Price", "features").na.drop() # 将数据集分为训练集和测试集 (trainingData, testData) = data.randomSplit([0.7, 0.3], seed=100) # 训练线性回归模型 lr = LinearRegression(featuresCol="features", labelCol="Price", maxIter=10, regParam=0.3, elasticNetParam=0.8) model = lr.fit(trainingData) # 模型评估 predictions = model.transform(testData) predictions.select("prediction", "Price", "features").show() # 预测单个数据 single_data = spark.createDataFrame([(2013, "Audi", "suv", 120000, 2.0, "Diesel", "yes")], ["Year", "Brand", "Body", "Mileage", "EngineV", "Engine Type", "Registration"]) single_data = assembler.transform(single_data) prediction = model.transform(single_data) prediction.select("prediction").show() ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值