工业大数据竞赛(基于深度学习的模型)

本次博客将分享一次工业大数据竞赛的经历,重点探讨如何运用深度学习技术进行模型构建和优化。通过对海量数据的预处理、特征工程和模型训练,最终实现对复杂工业问题的精准预测。
摘要由CSDN通过智能技术生成
#数据处理代码

import pandas as pd
import numpy as np

#提取M1数据
pinlv=[]
#M_number=['M1','M2','M3','M4','M5']
M_xilie=['a','b','c','d','e']
boxing=['压缩机非联端X','压缩机非联端Y','压缩机联端X','压缩机联端Y','压缩机轴位移A(波形)','压缩机轴位移B(波形)','压缩机轴位移C(波形)']

fenlei=pd.DataFrame({'压缩机非联端X':[[]],'压缩机非联端Y':[[]],'压缩机联端X':[[]],'压缩机联端Y':[[]],'压缩机轴位移A(波形)':[[]],\
                     '压缩机轴位移B(波形)':[[]],'压缩机轴位移C(波形)':[[]],'label':[[]]})

file_all_count=[]
k=0
import os
for h in range(5):
    for i in range(7):
        file_count=len(os.listdir('D:\训练数据\M1\M1%s\%s'%(M_xilie[h],boxing[i])))
        file_all_count.append(file_count)

for g in range(5):
    for h in range(7):
        for i in range(file_all_count[k]):
            df=pd.read_csv('D:\训练数据\M1\M1%s\%s\wave_%s.csv' %(M_xilie[g],boxing[h],(i+1)),skiprows=5)
            df=df.drop(['wave'],axis=1)    
            #df.loc[i+1]=list(data)
            listdata=list(df)
            listdata=[x[:4] for x in listdata]
            listdata=[float(x) for x in listdata]

            df2=pd.read_csv('D:\训练数据\M1\M1%s\%s\wave_%s.csv' %(M_xilie[g],boxing[h],(i+1)),nrows=1,header=None)
            freq=df2.loc[0,1]

            listdata2=[x*freq for x in listdata]

            pinlv=pinlv+listdata2    

        #import array
        #int16重要!
        #pinlv=np.array(pinlv,dtype=np.int16)
        #import wave
        #import numpy as np
        #import scipy.signal as signal
        #import scipy.io.wavfile

        #scipy.io.wavfile.write('D:\训练数据\M1\M1a\%s.wav' %(boxing[h]),44100,pinlv)   #7.2

        fenlei.loc[g,['%s'%(boxing[h])]]=[pinlv]
        pinlv=[]
        k=k+1
fenlei.to_csv('d:\训练数据\M1.csv')
import pandas as pd
import numpy as np

#提取M2数据
pinlv=[]
#M_number=['M1','M2','M3','M4','M5']
M_xilie=['a','b','c','d','e']
boxing=['压缩机非联端X','压缩机非联端Y','压缩机联端X','压缩机联端Y','压缩机轴位移A(波形)','压缩机轴位移B(波形)']

fenlei=pd.DataFrame({'压缩机非联端X':[[]],'压缩机非联端Y':[[]],'压缩机联端X':[[]],'压缩机联端Y':[[]],'压缩机轴位移A(波形)':[[]],\
                     '压缩机轴位移B(波形)':[[]],'压缩机轴位移C(波形)':[[]],'label':[[]]})

file_all_count=[]
k=0
import os
for h in range(5):
    for i in range(6):
        file_count=len(os.listdir('D:\训练数据\M2\M2%s\%s'%(M_xilie[h],boxing[i])))
        file_all_count.append(file_count)

for g in range(5):
    for h in range(6):
        for i in range(file_all_count[k]):
            df=pd.read_csv('D:\训练数据\M2\M2%s\%s\wave_%s.csv' %(M_xilie[g],boxing[h],(i+1)),skiprows=5)
            df=df.drop(['wave'],axis=1)    
            #df.loc[i+1]=list(data)
            listdata=list(df)
            listdata=[x[:4] for x in listdata]
            listdata=[float(x) for x in listdata]

            df2=pd.read_csv('D:\训练数据\M2\M2%s\%s\wave_%s.csv' %(M_xilie[g],boxing[h],(i+1)),nrows=1,header=None)
            freq=df2.loc[0,1]

            listdata2=[x*freq for x in listdata]

            pinlv=pinlv+listdata2    

        #import array
        #int16重要!
        #pinlv=np.array(pinlv,dtype=np.int16)
        #import wave
        #import numpy as np
        #import scipy.signal as signal
        #import scipy.io.wavfile

        #scipy.io.wavfile.write('D:\训练数据\M1\M1a\%s.wav' %(boxing[h]),44100,pinlv)   #7.2

        fenlei.loc[g,['%s'%(boxing[h])]]=[pinlv]
        pinlv=[]
        k=k+1
fenlei.to_csv('d:\训练数据\M2.csv')
import pandas as pd
import numpy as np

#提取M3数据
pinlv=[]
#M_number=['M1','M2','M3','M4','M5']
M_xilie=['a','b','c','d','e']
boxing=['压缩机非联端X','压缩机非联端Y','压缩机联端X','压缩机联端Y','压缩机轴位移A(波形)','压缩机轴位移B(波形)','压缩机轴位移C(波形)']

fenlei=pd.DataFrame({'压缩机非联端X':[[]],'压缩机非联端Y':[[]],'压缩机联端X':[[]],'压缩机联端Y':[[]],'压缩
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值