IGAL九期班学习笔记-刘世霞

   本篇博客用于记录观看2018IGAL刘世霞老师关于《用于元/日志数据分析和质量管理的可视化分析》的学习笔记与体会。刘老师不仅结合自己的工作探讨了如何有效利用可视分析来解释隐藏知识,还分享了自己在研究中的一些宝贵经验。她主要讲解了三个在他们用可视化方法解决的研究中遇到的问题:一是通过文本关联的可视化方法来帮助研究人员在海量的论文中半自动的寻找自己需要的文章;第二个是对于机器学习中用可视化的方法在监督学习标注数据时提高数据的质量。第三个是用可视化的方法帮助人们理解机器学习训练过程中的内部工作原理,以便找到在训练过程中为什么没有达到预期的效果。以下是本次学习的笔记记录:

数据变得越来越重要
    海量数据->导致->理解不足(或数据有丢失)
1、桥接文本可视化和挖掘:任务驱动的调查
    针对一系列文档从中找出对自身有用的文档/方向,如:Research Treads、Research Opportunities
    做的工作:
        从很多很多文本数据中抽出里面的concept(使用NLP技术)包括:Visualization techniques、
        Tasks、Miningtechniques的Concept.
        然后以Task为中心将另外两个的concept联系在一起
        通过一张这样的概念图让使用者了解这个领域
    可帮助两类人员:
        1、想做一些文本可视分析工具的人员:根据这个联系就可知道,我想解决这样一个Task
        常用的可视化技术有哪些、常用的挖掘技术有哪些。
        2、对于研究人员来说除了用它了解研究方向还可以知道未来的研究机会有哪些应该怎样去选择
    该方法解决的当前的不足:
        1、一种半自动分析方法,用于提取和分析主要概念。
        2、三种概念分类法和数据驱动方法来提取它们之间的关系。
        3、开发了基于网络的可视化工具,用于分析主要研究趋势和潜在的研究方向。
        4、对视觉文本分析中的文献进行全面调查。
    系统分析步骤:
        输入数据:
            可视化文章抽出263篇:由于少且熟悉所以人为抽出
            数据挖掘的文章4346篇:由于数量巨大,从找到的可视化文章中找与数据挖掘有关的
                                keyWord,然后根据这些来抓数据挖掘的文章。(半自动的方法)
        抓出Concept:
            可视化的文章手动的抓
            数据完挖掘的文章半自动的方法来抓
    分类构建:
        可视化技术的分类:
            由共同作者手工构建和迭代完善。
        任务和挖掘技术分类:
            步骤1:K-means聚类以创建初始层次结构;
             第2步:由共同作者和采矿专家迭代完善。
    
    总结:通过该技术我们可以调查两个不同的研究领域,并确定连接他们的桥梁。技术分类以半自动
          的方式构建,大大减少了研究人员需要花费在查找自己需要文章的时间,且准确无漏。且通过
          该方法还可让研究者找到自己的研究机会/方向。
2、工程问题:众包注释的改进
    机器学习管道
        1、预处理并清理数据
        2、选择并构建适当的功能
        3、选择合适的模型系列
        4、优化模型超参数
        5、后处理机器学习模型
        6、批判性地分析所获得的结果
        在这一过程中每种分析都可以使用可视分析与之交互
    (1)Data:
        监督学习:标注数据
        提高数据的质量:培训数据的质量对于监督和半监督学习的成功至关重要
        现有的方法:耗时且不易
        现有方法的问题:
            数据科学家需要花费精力和时间来验证数据。
            对于难以区分的对象,数据科学家需要咨询熟悉该领域的领域专家。
        开发的一种可视分析系统:
        目标:减少所需的工作量
        解决的问题:
            让专家快速访问最不确定的实例标签和不可靠的工作人员进行验证。
            开发迭代和渐进的验证程序。
        modeling:基于贝叶斯的方法
        基于Constrained T-sne
    (2)工程:基于日志数据解释机器学习训练过程的内部工作原理
            机器学习作为黑魔术或黑匣子
            期望生成的model是可解释的
            可视化和机器学习管道:
                目标:理解为什么机器学习模型的行为方式以及它们彼此不同的原因
                当前焦点:了解神经网络
                    基于点的方法
                    基于网络的方法
                使用散点图显示神经网络组件之间的关系
            面临的技术挑战:
                提取对抗例子的数据路径正常
                数据路径可视化
            帮助机器学习专家理解为什么培训过程没有达到理想的性能,以便他们可以做出更好的选择来改善模型性能
            当前技术 - 利用模型的预测得分分布(即样本类概率)来评估错误严重性 - 利用可视化分析来诊断失败的培训过程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值