天池新人实战赛之[离线赛]尝试(二)

上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表

训练数据11.22~11.27U-I集合行为数据

对应的大数据表名: temp_fin.temp_tianchi_train1_data

验证数据11.29~12.04U-I集合行为数据

对应大数据表名:

 

数据预处理思路:

1.筛选一些异常的训练数据(只买不看的U-I组合,只看不买的U-I组合)

2.调整训练数据中的正负样本比例

模型建立思路:

1.选用不同分类算法,选择随机森林 和梯度提升树(对正负样本的比例不敏感),不同超参 训练模型,统计准确率,F1值。使准确率局部最优

2.使用验证数据进行验证,若准确率变化不大,说明模型可用,再使用预测数据预测最终结果

----------------------------------

第一次coding:

直接使用训练数据,使用随机森林模型,训练情况:

 

from pyspark.context import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
import pandas as pd
import numpy as np
from pyspark.ml.feature import MaxAbsScaler
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

#随机森林(RF)和梯度提升树(GBDT)
#对 正反例比例不敏感,但负样本太多会影响 训练消耗资源

sparkconf = SparkConf()
sparkconf.setAppName("ronaldo0412") \
  .set("spark.cores.max",str(8)) \
  .setExecutorEnv("JAVA_HOME", os.environ["JAVA_HOME"]) \
  .setExecutorEnv("HADOOP_HDFS_HOME", os.environ["HADOOP_HOME"]) \
  .setExecutorEnv("LD_LIBRARY_PATH", os.environ["JAVA_HOME"] + "/jre/lib/amd64/server:" + os.environ["HADOOP_HOME"] + "/lib/native" ) \
# Create a spark session object, enable hive support
spark = SparkSession.builder.enableHiveSupport().config(conf=sparkconf).getOrCreate()
pydf =spark.sql("select * from temp_fin.temp_tianchi_train1_data")
pydf2 =spark.sql("select * from temp_fin.temp_tianchi_train2_data")
# results=pydf.collect()
# array_data = np.array(results, dtype=object)
# columns =['user_id','item_id','item_category','u_b_count','u_b1_count','u_b2_count',\
#           'u_b3_count','u_b4_count','u_b4_rate','i_u_count','i_b4_rate','c_u_count',\
#           'c_b4_rate','ui_b_count','uc_b_count','flag']
# df = pd.DataFrame(array_data,columns=columns)

#转换为一列多维向量
assembler = VectorAssembler(inputCols=['u_b_count',\
        'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\
          'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \
                            outputCol="features")
assembled = assembler.transform(pydf)

assembler2 = VectorAssembler(inputCols=['u_b_count',\
        'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\
          'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \
                            outputCol="features")
assembled2 = assembler.transform(pydf2)

#特征值归化 
#使用MaxAbsScaler,保留0数据
maScaler = MaxAbsScaler(inputCol="features", outputCol="scaled")
model = maScaler.fit(assembled)
df_train =model.transform(assembled)

maScaler2 = MaxAbsScaler(inputCol="features", outputCol="scaled")
model2 = maScaler.fit(assembled2)
df_test =model.transform(assembled2)

print('特征值处理完毕')
#构建模型
rf= RandomForestClassifier(numTrees=100, maxDepth=10, seed=42,featuresCol='scaled',labelCol='flag')
model=rf.fit(df_train)
print('模型已建立')

resultDF=model.transform(df_test)
resultDF.select('user_id','item_id','scaled','flag','prediction').write.mode("overwrite").saveAsTable('temp_fin.temp_tianchi_train_test_result')
print('测试数据已处理')
# evaluator = MulticlassClassificationEvaluator().setLabelCol("flag").setPredictionCol("prediction").setMetricName("accuracy")
# predictionAccuracy = evaluator.evaluate(resultDF)
# print("Testing Accuracy is %s " % (predictionAccuracy * 100) + "%")




 以上没有对正负样本比例调整,没有筛选训练数据的预测情况,将测试数据的预测结果保存进大数据表中,发现预测结果全是0。调整正负样本比例为1比30(采用k-means采样方法)再做测试

 

 

 

----------------------------------------------------

具体操作:

1.temp_fin.temp_tianchi_train1_data 中的数据,flag=0(反例) 数据量为1707539,flag=1(正例) 数据量为1445。正反例比例= 1:1181 。显然反例数据太多,需要减少反例的数据量。参考其他文章,有各种采样方法和随机方式。

列举两种:1.k-means 分类(分为特定 的聚类,再从每个聚类中随机抓取一定负样本) ;2.随机抓取

显然第一种方式更加科学。但最后采样之后 正反例比例应该为多少合适呢,这是个比较大的课题。本实验,先选两种比例 1:10  和1:30 来做测试。

k-means 聚类算法实现:

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大学生参加学科竞有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞是提高专业知识和技能水平的有效途径。通过参与竞,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域有更深刻的理解。在竞过程中,学生通常需要解决实际问题,这锻炼了他们独立思考和解决问题的能力。 其次,学科竞培养了学生的团队合作精神。许多竞项目需要团队协作来完成,这促使学生学会有效地与他人合作、协调分工。在团队合作中,学生们能够学到如何有效沟通、共同制定目标和分工合作,这对于日后进入职场具有重要意义。 此外,学科竞是提高学生综合能力的一种途径。竞项目通常会涉及到理论知识、实际操作和创新思维等多个方面,要求参者具备全面的素质。在竞过程中,学生不仅需要展现自己的专业知识,还需要具备创新意识和解决问题的能力。这种全面的综合能力培养对于未来从事各类职业都具有积极作用。 此外,学科竞可以为学生提供展示自我、树立信心的机会。通过比的舞台,学生有机会展现自己在专业领域的优势,得到他人的认可和赞誉。这对于培养学生的自信心和自我价值感非常重要,有助于他们更加积极主动地投入学习和未来的职业生涯。 最后,学科竞对于个人职业发展具有积极的助推作用。在竞中脱颖而出的学生通常能够引起企业、研究机构等用人单位的关注。获得竞奖项不仅可以作为个人履历的亮点,还可以为进入理想的工作岗位提供有力的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值