关闭

ATS的一些问题处理

错误如果一个url因为未满足ATS要求而访问失败,可能会提示下面这样的错误: Error Domain=NSURLErrorDomain Code=-1200 “An SSL error has occurred and a secure connection to the server cannot be made.”工具通常,可以使用工具来检测url所属的主机对ATS的支持情况。 可以在命令...
阅读(698) 评论(0)

文本相似度的那些算法

子序列与子字符串这个系列问题包含这么几种:最大子序列、最长递增子序列、最长公共子串、最长公共子序列。 几个子问题都可以用动态规划的思路来求解。对于长度为i、j的两个字符串 ,使用m[i][j]矩阵来存放中间结果。更详细的算法可以看这篇文档: http://www.cnblogs.com/zhangchaoyang/articles/2012070.html字符串编辑距离精确计算两个字符串的编辑距...
阅读(4241) 评论(0)

优化OpenSearch的搜索结果

前面介绍了OpenSearch的基本使用(使用OpenSearch为应用提供搜索功能),一个小型的搜索服务很容易搭建。但具体应用到某个业务时,可能我们对默认的搜索结果并不满意,这里介绍下OpenSearch在搜索结果的调优方面提供的方法。调优入口使用OpenSearch时,要影响搜索结果,可以在两个地方下功夫。查询一条OpenSearch查询语句可以包含多种形式的子句,除了最核心的必选query子句...
阅读(1448) 评论(0)

使用OpenSearch为应用提供搜索功能

创业公司,一切从简,这里用OpenSearch搭建一个健康科普文章的搜索引擎,来展示一下在项目中接入搜索引擎是多么简单。自从用了OpenSearch,老板再也不用担心我的搜索引擎了。说到健康科普,当属我一直关注的丁香医生了,几千篇正牌医生针对自己擅长的领域写出来的文章,权威性很高。不像百度出来的一片片盗版文档,毫无可信度可言。老码农作为资深鼻炎患者,感受颇深。 所以这次就用这些健康科普文章来做次实...
阅读(1834) 评论(0)

数据分布未明确时的检验方法

通常,数据有一个比较明确的分布方式,如二项分布、正态分布等,也就存在针对具体分布方式的明确检验方法。 下面这些检验方式是在数据没有明确的分布方式的情况下使用的,相比有针对明确分布数据集的检验方式,效率更低,需要的样本量更大,更粗糙。一个数据集可以使用多种方式检验零假设,但只要有一种检验方式拒绝零假设,那就可以判定拒绝零假设。符号检验也叫sign test。在这篇文章中提到的身高的例子,在这里我们并...
阅读(1067) 评论(0)

连续分布——正态分布、卡方分布、t分布、F分布

正态分布某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。正态分布,即高斯分布,是自然界最常见的数据分布了。 用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。这里给出R应用//假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为 pnorm(...
阅读(3890) 评论(0)

离散分布——二项分布、多项分布、超几何分布

介绍二项分布前,先了解一下伯努利实验。 比如一个鸡蛋是否能成功孵出小鸡,扔硬币,进入商店的人是否购买了东西,一个正在生产的产妇是生男生女,这些都是伯努利实验。它满足以下条件:1、每次只可能有两种结果;2、两次实验之间互不影响。 和伯努利实验最常见的问题就是:如果进行n次伯努利实验,每次成功概率为p,那么成功k次的概率是多少?这个概率分布就是二项分布。这里给出R语言应用 已知某批鸡蛋的孵出...
阅读(1149) 评论(0)

一些常见的特征选择方法

现实中产生的特征维度可能很多,特征质量参差不齐,不仅会增加训练过程的时间,也可能会降低模型质量。因此,提取出最具代表性的一部分特征来参与训练就很重要了。 通常有特征抽取和特征选择两种方法。这里分别介绍一下。特征抽取与PCA特征抽取中最常见的当属PCA了。主要思想对于特征之间存在正交关系,数据满足高斯分布或指数分布的数据,作线性变换,使用方差、协方差去噪,生成新的主元,接下来按重要性排序后取少数参与...
阅读(2426) 评论(0)

R+ODPS

阿里的数加平台最近推出了机器学习数据实验室,由于是基于ODPS创建,运算方面丝毫不是问题,继承了ODPS的大数据计算能力。 算法方面,常见的二分类、多分类、线性回归、聚类、图计算等都有提供,纯图形的操作方式也很简单。 计费方式同ODPS差不多,按IO和计算量计费,起步门槛很低。 有兴趣可以玩一玩:https://data.aliyun.com/product/learn老码农玩了一段时间,觉得...
阅读(1120) 评论(1)

基本数学概念——数列

这里介绍常见的数列,及其R实现等差数列seq(1,5,2) //输出结果:1,3,5等比数列等差数列的每一项作为常数的指数即可data<-seq(1,5,2)//先生成等差数列 10^data//以10为底数,生成等比数列 //输出结果:1e+01 1e+03 1e+05 2^data//以2为底数,生成等比数列 //输出结果:2 8 32重复数列rep(1,5)//生成5个1。 //输出结果:1...
阅读(415) 评论(0)

基本数学概念——集合

这里找了一个集合的基本操作的应用场景,并给出了R求解过程。问题一个班级有10个人,学号编号分别为1、2、3、4、5、6、7、8、9、10。其中,{1、2、3}3个人参加了物理竞赛,{3、4、9}5个人参加了数学竞赛,{2、3、4、6、8}5个人参加了作文竞赛,{1、2、4、5、7、8}6个人参加了英文竞赛。 分别找出以下的人: 1、参加了物理竞赛或数学竞赛的所有人。 2、既参加了物理竞赛,又参...
阅读(391) 评论(0)

由中秋抢月饼事件想到的

我这篇文章(http://blog.csdn.net/a345017062/article/details/52262898)提到过,好奇和尝试是创新的源动力,是对边界的挑战。 这样的事每天都在发生:从改革开放的傻子瓜子,到淘宝无数店铺多年的无照经营;从水深流大的影子银行,到泥俱下的P2P,从因为代购被判刑的空姐这样的蚂蚁雄兵,到CEO突然消失的笨鸟物流。 世界处处存在漏洞,对希望的追求,驱使人...
阅读(893) 评论(0)

常见算法及问题场景——字符串匹配

思路字符串匹配的思路大致分几种: 1、暴力匹配。 2、基于暴力匹配进行优化。进行预计算,一旦发现失败匹配之后,可以跳过更多的位置,减少无谓的浪费。 这篇文档提到了许多按这个思路实现的算法各具特点 http://blog.csdn.net/airfer/article/details/8951802/ 但最具代表性的算法还是KM,这篇文档讲的非常详细: http://www.ruanyif...
阅读(778) 评论(0)

常见算法及问题场景——线性规划

数据模型1、约束条件及目标函数 2、约束条件所表示的可行域 3、在可行域内求目标函数的最优解及最优值理论体系几何上,线性约束条件的集合相当于一个凸包或凸集,叫做可行域。 目标函数亦是线性的,所以其极值点会自动成为最值点。而线性目标函数暗示其最优解只会出现在其可行域的边界点中。两种情况下无解: 1、约束条件互相矛盾,即坐标系中可行域为空。 2、约束条件构成的多面体可行域无限大。现实问题很少会...
阅读(455) 评论(0)

常见算法及问题场景——散列(哈希)

定义哈希函数按照定义可以实现一个伪随机数生成器(PRNG),从这个角度来看,哈希函数之间性能、质量等方面的比较,可以通过其在伪随机生成质量方面的比较来衡量。评价体系:1、泊松分布可以用于分析不同的哈希函数对不同的数据的碰撞率(collision rate)。 2、算法复杂度,以及运行时间。 3、位偏向。哈希函数生成随机位序列时,产生高、低位的位偏向应该各为50%。 4、完美的哈稀函数不存在,只...
阅读(546) 评论(0)
204条 共14页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1592908次
    • 积分:14934
    • 等级:
    • 排名:第794名
    • 原创:167篇
    • 转载:0篇
    • 译文:37篇
    • 评论:450条
    我的微信公众号
    农场老马,与CSDN博客同步更新

    我的github项目