数据技术
文章平均质量分 71
数据技术相关
熊野君
能力有限,如有错误,恳请批评指正。
展开
-
自动化测试简介
写在前面自动化测试适用于回归测试,但部分场景是无法自动化测试的,目前主流方案是自动化为主+人工测试为辅;自动化测试的核心是测试用例,为达到良好的测试目的需及时优化测试用例。定义自动化测试是指运用功能测试工具,在没有人为干预情况下,完成系统功能测试并推送测试结果。目的自动化测试的目的是节约人力成本及时间成本,把枯燥的回归测试自动化起来,缩短项目周期,最终达到先于用户发现问题、先于用户投诉解决问题的效果。为什么需要自动化测试?能解决手工测试存在的以下缺点:1存在大量重复性工作。2测试效率低且成本高原创 2022-05-05 11:19:02 · 595 阅读 · 0 评论 -
数据分析学习之完整的数据挖掘项目流程
1、分析问题,明确目标有目的解决问题才会事半功倍。2、模型可行性分析并不是所有问题都需要数据挖掘模型或着能通过数据挖掘模型来解决。在建模之前需要进行可行性分析。判断模型可行性的流程如图所示:3、 选取模型根据问题定义选则合适的模型:决策树、随机森林、XGBoost等。4、 选择变量变量分类:非实时变量:基于历史数据,对时效性要求不高;实时变量:短时间内获取的最新数据。提取和选取变量的常规步骤:通过PRD文档、业务方需求文档,建立变量池;组织变量讨论会,拓展对业务原创 2021-03-21 15:59:13 · 1358 阅读 · 0 评论 -
数据分析师必备技能
1.1.数据人员如何创造价值基于历史数据和业务背景构建指标体系或者模型。基于指标体系、监控线上业务数据并制定相应的监控规则。输出数据分析报告或者提供可执行策略,推动业务的发展。1.2.完整的指标体系构建1.2.1.指标体系构建的整体思路构建指标体系要“纵向”和“横向”相结合,纵向指的是梳理出分析问题的整个流程,有了纵向分析的过程,还需要横向扩展不同维度,最后将纵向和横向的结果相结合,就得到了一套完整的指标体系。1.2.2.如何有针对性的设计指标分析流程,找出关键节点,针对这些节点,可以纵原创 2021-03-16 12:05:49 · 377 阅读 · 0 评论 -
启发式算法是啥?
启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。现阶段,启发式算法以仿自然体算法为主,主要有蚁群算法、模拟退火法、神经网络等。大自原创 2017-11-16 17:31:36 · 6728 阅读 · 0 评论 -
《用于生物医学图像分析的精细调节卷积神经网络:主动性&增量性》(Fine-tuning Convolutional Neural Networks for Biomedical Image Analy
文章介绍:这篇主要针对医学图像处理领域标注数据匮乏的问题,如何通过卷积神经网络(CNN)的Fine-tune和主动学习(Active Learning)来解决。使用CNN进行生物医学图像分析在最近几年得到了比较多的关注,但面临的一个问题是缺乏大量的标注数据,相比imagenet,对医学图像进行标注需要大量的专业背景知识,为了节约标注的成本和时间,这篇论文提供了一个新型的方法AIFT(A原创 2017-11-20 11:40:34 · 640 阅读 · 0 评论 -
主动学习 active learning(简单例子)
1. 主动学习也叫做询问学习或最佳实验设计,它是机器学的分支,更人工智能。主要的假设是是否学习算法是可以去选择先要学习的数据。主动学习系统试图跨越标签瓶颈,没有标签的例子去被人类注释者来标签。主动学习目的是提高准确率,通过尽量少的标签,因此减少获得标签数据的费用。2. pool-based 过程:学习者先从少量训练集里标签的例子开始,从精心挑选的例子里获得标签进行学习,然后扩展新知识去选择下个原创 2017-11-20 11:37:28 · 9043 阅读 · 0 评论 -
R语言实现LDA主题模型分析知乎话题
这是一篇关于文本主题分析的应用实践,主要尝试聚焦几个问题,什么是LDA主题模型?如何使用LDA主题模型进行文本?我们将知乎上面的转基因话题精华帖下面的提问分成六大主题进行实践。转基因“风云再起”2017年5月18日璞谷塘悄然开张,这是小崔线上贩卖非转基因食品的网店,所卖的商品价格平均高于市场价5倍,小崔打着反转基因的名号卖着反转基因的食品,不由得令人想起了那些年小崔引发的转基因原创 2017-11-14 23:59:59 · 16237 阅读 · 20 评论 -
从朴素贝叶斯到N-gram语言模型
四个字:条件独立。1. 引言:朴素贝叶斯的局限性朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。2. N-gram语言模型是啥?2.1从假设性独立到联合概率链规则照抄我们前文原创 2017-11-14 23:15:49 · 1171 阅读 · 0 评论 -
用深度学习(CNN RNN Attention)解决大规模文本分类问题
一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。原创 2017-11-05 21:09:20 · 8349 阅读 · 0 评论 -
常见的语言表示模型(词嵌入、句表示、篇章表示)
语言表示方法大体上可以从两个维度进行区分。一个维度是按不同粒度进行划分,语言具有一定的层次结构,语言表示可以分为字、词、句子、篇章等不同粒度的表示。另一个维度是按表示形式进行划分,可以分为离散表示和连续表示两类。离散表示是将语言看成离散的符号,而将语言表示为连续空间中的一个点,包括分布式表示和分散式表示。原创 2017-11-05 14:55:47 · 18686 阅读 · 0 评论 -
特征工程:机器学习中的特征与标签自然语言化
引子这一篇关于机器自然语言应用和特征工程结合的文章,目的在于探讨特征工程的另一种可能性——解决特征稀疏或数据和模型异构场景下一种通用的解决方案。一种大大降低模型开发及数仓建设人力成本,同时提高模型精度的解决方案。 在机器学习科研领域中,往往可以看到的是在规整及缺失率低特征的数据集下,固定的生产线解决一个特定的问题。原创 2017-11-14 01:00:39 · 2149 阅读 · 0 评论 -
中国人写SCI最常犯的错误总结
This paper presents some of the most common Chinese-English habits observed from over two hundred English technical papers by Chinese writers. The habits are explained and in most cases, example t原创 2017-11-18 00:59:19 · 3669 阅读 · 0 评论 -
Evaluating Web Search with a Bejeweled Player Model
在信息检索技术研究中,评价指标的设计是对检索系统进行评价的重要一环。而在评价指标的建模中,估计用户的期望收益与期望付出是搜索用户行为模型的关键组成部分,用户在实际搜索会话中终止条件的判断会同时受这两方面的影响。但由于受模型框架限制,当前几乎所有信息检索评价指标均无法做到同时将用户的期望收益和期望付出纳入会话终止条件的估计。那么如何对用户的交互过程进行建模,从而将这两者考虑进去呢?在原创 2017-11-20 12:04:47 · 781 阅读 · 0 评论 -
Attention Networks with Keras(用Keras实现注意力网络)
注意:在这里可以找到一个带有示例代码的jupyter Python notebook:链接在自然语言处理中最有趣的进步之一就是注意力网络的概念。已成功地用于翻译服务、医疗诊断和其他任务。今天,我们将学习什么使注意力网络有效,为什么它是特殊的,以及背后的实现细节。当使用本教程的时候,我假设你对神经网络有一定的了解。传统的递归神经网络有一些明显的局限性。例如在编码-解码器网络布局中,很难以压缩格式...翻译 2018-05-14 23:00:16 · 17170 阅读 · 0 评论 -
《统计学习方法》笔记(一)概述
如果一个系统能够通过执行某个过程改进它的性能,这就是学习。———赫尔伯特·西蒙统计学习的对象是数据统计学习关于数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的是对数据进行预测和分析。统计学习关于数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的是对数据进行预测和分析。统计学习分为:监督学习,非监督学习,半监督学习,和强化学习 统计学习三要素:模型、策略和算法实现统计学习的步...原创 2018-05-05 21:45:01 · 567 阅读 · 0 评论 -
DRL之Policy Gradient, Deterministic Policy Gradient与Actor Critic
我们已经知道,Policy Gradient的方法的基本思想是通过评价动作action的好坏,来调整该action的出现概率。最基本的Policy Gradient的损失函数Loss就是 这里先以Q值来指代对动作的评价。由于一般训练中,我们要最小化loss,因此公式取负号。 那么问题就是Q值是对动作好坏最好的评价吗? 显然不是。最理想的状原创 2017-11-25 16:42:07 · 1004 阅读 · 0 评论 -
Policy Gradient
什么是策略网络Policy Network?就是一个神经网络,输入是状态,输出直接就是动作(不是Q值)。或者输出概率:Policy Gradient要更新策略网络,或者说要使用梯度下降的方法来更新网络,我们需要有一个目标函数。对于策略网络,目标函数其实是比较容易给定的,就是很直接的,最后的结果!也就是 所有带衰减reward的累加期望那么原创 2017-11-25 16:37:40 · 3421 阅读 · 0 评论 -
融入了外部Linguistically信息的情感分析模型
最近看了几篇nlp相关的顶会论文,又发现了一条提高文本分类精度的新思路,即增加外部的信息,就是这么简单的一句话,就蕴含了很丰富的道理,下面我来娓娓道来。常规的处理自然语言的方法(无论是统计语言模型方法还是神经网络语言方法)所分析的对象都是一句话或者一篇文档,也就是说我们得到的关于某句话的所有信息只能全部来自于这句话的文本内容(传统的论文创新无非就是在处理这些文本的方式上进行改变转载 2017-12-13 16:17:08 · 665 阅读 · 0 评论 -
Linguistically Regularized LSTMs for Sentiment Classification
通过改变损失函数的方式,把语言学规则(情感词典,否定词和程度副词)融入到现有的句子级LSTM情感分类模型中。一、相关工作1、情感分类的神经网络模型近年来,出现了很多解决情感分类问题的神经网络模型,主要有:通过递归编码建立句子的语义表示,输入文本通常是树结构的,具体工作可参考:[Socher et al. 2011] Semi-Supervised原创 2017-11-29 22:15:51 · 2417 阅读 · 0 评论 -
k-近邻算法(三)
分析数据:数据可视化原创 2017-11-03 22:19:11 · 505 阅读 · 0 评论 -
情感分析
一、什么是情感分析情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。请噶程度分析主要是对同一情感极性中再进行划分或者细分,以转载 2017-11-13 19:25:32 · 2564 阅读 · 0 评论 -
自然语言处理入门——白话机器翻译原理
这个方向在几个大厂应该都比较成熟了,比如有道翻译、百度翻译、Google翻译等等。我平时用的有道比较多,一般都是去翻译个英文文档之类的。因为有道做的词典比较专业,因此在英译汉或者汉译英的时候认可度能高点。我们先来看看机器翻译是怎么被玩坏的吧!PS: 这个梗真的不是我黑谁!我也是从PPT上面看到的,觉得这个例子很不错.....话说回来,在机器翻译的领域原创 2017-11-09 00:40:13 · 2492 阅读 · 0 评论 -
基于神经网络的实体识别和关系抽取联合学习
基于神经网络的实体识别和关系抽取联合学习 联合学习(Joint Learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,原创 2017-11-08 23:38:03 · 2506 阅读 · 0 评论 -
数据清洗
数据清洗思维导图原创 2017-11-08 23:29:46 · 504 阅读 · 1 评论 -
在NLP中深度学习模型何时需要树形结构?
前段时间阅读了Jiwei Li等人[1]在EMNLP2015上发表的论文《When Are Tree Structures Necessary for Deep Learning of Representations?》,该文主要对比了基于树形结构的递归神经网络(Recursive neural network)和基于序列结构的循环神经网络(Recurrent neural network),在4原创 2017-11-08 23:17:30 · 1370 阅读 · 0 评论 -
jieba中文处理
和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。原创 2017-10-31 11:35:59 · 10734 阅读 · 0 评论 -
自然语言处理入门——白话情感分析原理
引言情感分析在很多点上领域有很多的应用场景:比如,酒店网站需要提取用户对酒店的评价,然后策略性的进行显示,比如把负面的评价排的稍微往后面一点,总不能上来满屏都是脏乱差吧!比如,一些电商类的网站根据情感分析提取正负面的评价关键词,形成商品的标签。基于这些标签,用户可以快速知道大众对这个商品的看法比如,一些新闻类的网站,根据新闻的评论可以知道这个新闻的热点情况,是积极导向,还是消极导向原创 2017-11-09 00:43:38 · 2791 阅读 · 0 评论 -
自然语言处理入门——白话人机问答系统原理
背景在很多的领域其实都需要这样一个问答系统,问答系统有很多种交互的方式。先来目睹一下问答系统的风采吧:比如在线的聊天机器人比如智能的搜索平台关于这种问答系统,好坏的评测很简单,直接人工肉眼就能判断出来回答的是否是自己想要的,因此小白的体验用户也可以直观的评测一个问答系统效果是否足够好。基于问答库的实现方法首先可以设想一下:如果即没有任何高大上的机器学习算原创 2017-11-09 00:47:27 · 5886 阅读 · 0 评论 -
朴素贝叶斯(二)
简单高效,吊丝逆袭虽然说朴素贝叶斯方法萌蠢萌蠢的,但实践证明在垃圾邮件识别的应用还令人诧异地好。Paul Graham先生自己简单做了一个朴素贝叶斯分类器,“1000封垃圾邮件能够被过滤掉995封,并且没有一个误判”。(Paul Graham《黑客与画家》)那个…效果为啥好呢?原创 2017-10-31 17:30:59 · 582 阅读 · 3 评论 -
人类认知体系结构
人类认知体系结构是指组织构成人类认知的组件(例如工作和长时记忆)的方式。生物进化需要存储确定特定环境中确定有机体功能和活动的遗传信息。这些功能和活动能够传递给后代,但可以通过遗传物质的随机突变来改变。如果这些突变对于相同或新环境中的物种是适应的,则它们被保留,而导致所存储的遗传信息的改变。如果它们不适应,就会被抛弃。以这种方式,在进化期间通过自然选择来存储、传输和改变信息。这种信息处理系统原创 2017-11-13 18:54:43 · 2188 阅读 · 0 评论 -
自然语言处理中的注意力机制是干什么的?
谈神经网络中注意力机制的论文和博客都不少,但很多人还是不知道从哪看起。于是,在国外问答网站Quora上就有了这个问题:如何在自然语言处理中引入注意力机制?技术主管Nikhil Dandekar做出了一个简要的回答:概括地说,在神经网络实现预测任务时,引入注意力机制能使训练重点集中在输入数据的相关部分,忽略无关部分。注意力是指人的心理活动指向和集中于某种事物的能力。比如说原创 2017-11-13 18:48:03 · 2440 阅读 · 0 评论 -
自然语言处理(NLP)的深度学习发展史和待解难题
在2006年Hinton提出深度信念网络(DBN)之前,神经网络是一种极其复杂且难以训练的功能网络,所以只能作为一种数学理论来进行研究。在神经网络成为一种强大的机器学习工具之前,经典的数据挖掘算法在自然语言处理方面有着许多相当成功的应用。我们可以使用一些很简单且容易理解的模型来解决常见问题,比如垃圾邮件过滤、词性标注等。但并不是所有问题都能用这些经典模型来解决。简单的模型不能准确地原创 2017-11-13 18:43:27 · 1453 阅读 · 0 评论 -
LSTM模型理论总结
1.传统RNN模型的问题:梯度的消失和爆发 说到LSTM,无可避免的首先要提到最简单最原始的RNN。 我们经常可以看到有人说,LSTM适合时序序列,变长序列,尤其适合自然语言处理。那么是什么赋予它可以处理变长序列的能力呢? 其实,只要仔细研究上图,相信每个人都能有一个直观的答案。 从图片左边来看,R原创 2017-10-25 11:27:44 · 21384 阅读 · 1 评论 -
k-近邻算法(二)
二 k-近邻算法实战之约会网站配对效果判定 上一小结学习了简单的k-近邻算法的实现方法,但是这并不是完整的k-近邻算法流程,k-近邻算法的一般流程:收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据。一般来讲,数据放在txt文本文件中,按照一定的格式进行存储,便于解析及处理。 准备数据:使用Python解析、预处理数据。 分析数据:可以使用很多方法对数据进行分析,例如原创 2017-11-02 00:57:25 · 556 阅读 · 0 评论 -
k-近邻算法(一)
一 简单k-近邻算法 1 k-近邻法简介 2 距离度量 3 Python3代码实现 31 准备数据集 32 k-近邻算法 33 整体代码 二 k-近邻算法实战之约会网站配对效果判定 1 实战背景 2 准备数据数据解析 3 分析数据数据可视化 4 准备数据数据归一化 5 测试算法验证分类器 6 使用算法构建完整可用系统 三 k-近邻算法实战之sklearn手写数字识别 1原创 2017-11-01 23:12:51 · 737 阅读 · 0 评论 -
词嵌入
词嵌入(word embedding)是一种词的类型表示,具有相似意义的词具有相似的表示,是将词汇映射到实数向量的方法总称。词嵌入是自然语言处理的重要突破之一。什么是词嵌入?词嵌入实际上是一类技术,单个词在预定义的向量空间中被表示为实数向量,每个单词都映射到一个向量。举个例子,比如在一个文本中包含“猫”“狗”“爱情”等若干单词,而这若干单词映射到向量空间中,“猫”对原创 2017-10-23 21:16:41 · 14004 阅读 · 0 评论 -
朴素贝叶斯(三)进阶
1.贝叶斯方法优缺点优点对待预测样本进行预测,过程简单速度快(想想邮件分类的问题,预测就是分词后进行概率乘积,在log域直接做加法更快)。对于多分类问题也同样很有效,复杂度也不会有大程度上升。在分布独立这个假设成立的情况下,贝叶斯分类器效果奇好,会略胜于逻辑回归,同时我们需要的样本量也更少一点。对于类别类的输入特征变量,效果非常好。对于数值型变量特征,我们是默认它符合正态分布的。原创 2017-10-31 18:05:36 · 902 阅读 · 0 评论 -
一个隐马尔科夫模型的应用实例:中文分词
一个隐马尔科夫模型的应用实例:中文分词原创 2016-12-24 23:52:56 · 10678 阅读 · 0 评论