从情感分析到用户画像,CCF大数据与计算智能大赛 作品源码资料整理

 向AI转型的程序员都关注了这个号???


大概的调研情况如下:

比赛官网 http://www.datafountain.cn/#/home


比赛主要涉及大数据与人工智能领域,这是比较新的领域,这个比赛的先进性以及后期的发展潜力是毋庸置疑的。其次,比赛的出题企业也是非常优质的。去年的主办方邀请了国家电网、蚂蚁金服、搜狗这种重量级的企业,可以体会到比赛坚强的后盾和企业对于这个比赛的巨大期望。最后,在比赛的规模与影响力方面,这个比赛用了仅仅三四年时间已经可以号召近3万的用户,并且基本全部为计算机行业的数据人才,可以看出这个比赛的磅礴的生命力。所以这个比赛还是很值得参加的。(单单从奖金来看,也很具有诱惑力)



0)基于主题的文本情感分析 赛题


 以网上电商购物评论为例,原始的主题模型主要针对篇幅较大的文档或者评论句子的集合,学习到的主题主要针对整个产品品牌;而现实情形是,用户评论大多针围绕产品的某些特征或内容主题展开(如口味、服务、环境、性价比、交通、快递、内存、电池续航能力、原料、保质期等等,这说明相比于对产品的整体评分, 用户往往更关心产品特征),而且评论文本往往较短。

       本次大赛提供脱敏后的电商评论数据。参赛队伍需要通过数据挖掘的技术和机器学习的算法,根据语句中的主题特征和情感信息来分析用户对这些主题的偏好,并以<主题,情感词>序对作为输出。


GitHub https://github.com/digfound/CCFCompetition



1)O2O 赛题
wepon、天音和charles提供的CCF O2O比赛第一名的全套代码和资料:
https://github.com/wepe/O2O-Coupon-Usage-Forecast

2)农产品价格预测赛题
CCF农产品价格预测线上rank2代码
https://github.com/xing89qs/CCF_Product

线上第5,决赛答辩逆袭为第1名的团队
https://github.com/ziminghuang/futuredata-ccf2016

复赛第35名的团队:
https://github.com/wqlin/ccf-price-prediction

3) 客户用电异常行为分析
线上第4名的代码。这个队伍非常强悍,只提交很少的几次,而且最后3天都没提交,还一直前5名。同时,他们还是搜狗比赛的二等奖。
https://github.com/AbnerYang/2016CCF-StateGrid


本文来自 微信公众号 datadw  【大数据挖掘DT数据分析】


4)搜狗的用户画像比赛
线上第3名的TNT_000,同时也是上面客户用电异常行为分析比赛的二等奖。
https://github.com/AbnerYang/2016CCF-SouGou 

线上第5名的The Right队伍的代码和决赛答辩PPT,而且他们还给出了数据下载地址,大赞。同一个团队的几个人分别开源了,链接如下:
https://github.com/dhdsjy/2016_CCFsougou2
https://github.com/dhdsjy/2016_CCFsougou
https://github.com/prozhuchen/2016CCF-sougou
https://github.com/coderSkyChen/2016CCF_BDCI_Sougou

复赛第14名的团队:
https://github.com/admu/CCF_sougou

5)联通的用户轨迹赛题
利用运营商用户数据,提供互联网金融领域内的创意数据产品方案https://github.com/xuguanggen/2016CCF-unicom

6)Human or Robot

决赛第6名
https://github.com/pickou/ccf_human_or_robot


人工智能大数据与深度学习

搜索添加微信公众号:weic2c

长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘

长按图片,识别二维码,点关注



  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的竞赛项目学习资料,作为参考学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 CCF大数据计算智能大赛自动驾驶三维点云分割复赛第四方案源码+学习说明.zip ### 数据集解释: #### 由于本次的数据集超过100G,无法上传百度云,这里我们只取了几个数据作为sample,应该可以使用训练赛数据集作为替代:https://www.datafountain.cn/competitions/326/details ### 训练权重使用方法: #### 将maskrcnn文件夹放入FaterRCNN/train_log下,将ImageNet-R101-AlignPadding放入FasterRCNN下,本训练代码参考:https://github.com/tensorpack/tensorpack/tree/master/examples/FasterRCNN --------------------------------------------------------------------------------------------------- #### 1.数据预处理: ##### 官方提供了pts,intensity,category三类点云数据,我们这里参考了Complex-YOLO: Real-time 3D Object Detection on Point Clouds的思路将pts,intensity点云数据处理为最大反射强度,最大高度,归一化密度后再分别归一化到0~1的范围后重组为三通道图片数组,作为我们的训练图像。我们的图片和标签制作过程详见代码making_training_data/pointcloud2RGB.py #### 2.数据增强: ##### 鸟瞰图像有一个很大的特点,就是多方向性。传统图像数据集里面,道路目标姿态往往都是类似的,同时也不会有较大的倾斜。鸟瞰图数据集的这个问题就严重,道路目标的朝向东南西北都有可能的,因此训练集里的朝向应当要丰富,避免学习到的模型不具有泛性。 针对这一问题我们采取了下面几种数据增强方法:随机30°倍数旋转,随机水平翻转,随机平移。(均为线上数据增强) #### 3.数据格式转换: ##### 将得到的数据制分别制作成VOC和COCO格式,便于训练。 #### 4.目标检测算法选择: ##### 对多类目标检测算法进行尝试后,最后敲定使用Faster-RCNN作为目标检测算法,得到0.2以上的检测精度。(所需环境和使用方法均已经写在两个txt文件中) #### 5.调参过程: ##### 主要对目标nms阈值和目标置信度进行了调整,我们的结果可视化代码要使用matlab,在result_check/下 #### 6.最终复赛成绩:0.248 ---------------------------------------------------------------------------------------------------------------------------------------- #### 后续可以考虑改进的点: ###### 1.我们本次比赛对数据的清洗和分析做的不够,实际上该数据集类间数量分布很不均匀,需要针对这个情况,对每个类别进行置信度调整,同时部分数据的标注也存在一定的问题,要进行部分数据的筛选。 ###### 2.验证集的分割没做好,理想应该挑选5%的数据作为验证集,我们的验证集太小,缺乏代表性 ###### 3.图像分割在这个赛题会比目标检测算法有着更好的精度,同时速度上也会有较大的优势。 ###### 4.若使用图像分割的话,推断时间减少,就可以尝试在inference阶段使用TTA的思路,减少假阳性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值