算法
文章平均质量分 89
风控大鱼
这个作者很懒,什么都没留下…
展开
-
百度OCR接口使用详细教程
如何把图片、PDF文件中的文字进行识别提取,这个问题仿佛困扰了我们很多年,直到现在,当急需OCR功能时也没有一个快速、高效且免费的在线工具或软件能马上拿来用。前阵子的工作中正好有这个需求,我要把一篇PDF格式论文中的表格内容提取出来,供数据可视化使用。这些表格包含少量文字和大量数字,说多不多,说少也不少,人工提取数字出错率比较高。这时候!我又想找个“在线OCR工具”了!一些号称在线快速OCR的网页,广告横飞且速度慢,上传文件后无反应,大都是标题党骗点击赚广告费的…… 个别看起来比较正经的OCR软件,原创 2020-10-21 18:36:12 · 24342 阅读 · 4 评论 -
异常检测算法分类及经典模型概览
最近工作涉及有关异常检测的内容,而且前几天在公司做了一次有关异常检测算法和应用场景的分享,在此总结记录一下。什么是异常检测?异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括:金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;网络安全:从流量数据中找出”入...原创 2020-02-23 13:12:09 · 4832 阅读 · 1 评论 -
孤立森林(Isolation Forest)算法剖析
之后会持续更新算法剖析系列,力图用最生动的例子演示每一个算法的原理,不稀里糊涂做一个调包侠。欢迎持续关注,指正不足。孤立森林(Isolation Forest)算法是西瓜书作者周志华老师的团队研究开发的算法,一般用于结构化数据的异常检测。异常的定义针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义...原创 2019-07-25 23:28:52 · 17035 阅读 · 7 评论 -
【LintCode】算法题 1443. 最长AB子串
描述给你一个只由字母'A'和'B'组成的字符串s,找一个最长的子串,要求这个子串里面'A'和'B'的数目相等,输出该子串的长度。这个子串可以为空。 s的长度n满足2<=n<=1000000。样例给定s="ABAAABBBA",返回8。解释:子串 s[0,7] 和子串 s[1,8] 满足条件,长度为 8。给定s="AAA...原创 2018-06-21 19:41:10 · 1565 阅读 · 0 评论 -
机器学习:用正规方程法求解线性回归
求解线性回归最常用的两个方法是:梯度下降法和最小二乘法,之前在文章《机器学习:用梯度下降法实现线性回归》中介绍了梯度下降法的工作流程等,这篇文章着重介绍最小二乘法的使用。由于最小二乘法是基于正规方程的,所以也被称为正规方程法。什么是最小二乘法最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。方法的选择那么在求解线性回归时,对于这两种方法该如何选择呢?先看一下这两种方法的...原创 2018-03-25 01:38:04 · 2694 阅读 · 0 评论 -
机器学习:用梯度下降法实现线性回归
之前在 机器学习算法数学基础之 —— 线性代数篇 中,总结过求解线性回归的两种方法:最小二乘法梯度下降法这篇文章重点总结一下梯度下降法中的一些细节和需要注意的地方。梯度下降法是什么假设有一个估计函数: ,其代价函数(cost function)为: 这个代价函数是 x(i) 的估计值与真实值 y(i) 的差的平方和,前面乘上 1/2,是因为在求导的时候,这个系数就不见了。梯度下降法的流程:1)首...原创 2018-02-25 10:01:14 · 1743 阅读 · 0 评论 -
机器学习:分类(Classification)算法
在目前的机器学习工作中,最常见的三种任务就是:回归分析分类分析聚类分析这篇文章的重点是分类(Classification)在机器学习领域中的应用。什么是「分类」虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由...原创 2018-03-17 09:54:00 · 16936 阅读 · 0 评论 -
机器学习算法数学基础之 —— 统计与概率论篇(3)
核心问题发现数字的隐藏规律,完成分类。核心技能最大似然估计给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 个值的采样 利用 计算出其似然函数:若 是离散分布, 即是在参数为 时观测到这一采样的概率。若其是连续分布, 则为 联合分布的概率密度函数在观测值处的取值。一旦我们获得 我们就能求得一...原创 2018-02-22 08:19:06 · 826 阅读 · 0 评论 -
机器学习算法数学基础之 —— 线性代数篇(2)
线性代数核心问题求多元方程组的解。核心技能乘积、内积、秩已知矩阵 A 和矩阵 B,求 A 和 B 的乘积 C=AB。矩阵 A 大小为 mxn,矩阵 B 大小为 nxp。常规方法:矩阵 C 中每一个元素 Cij = A 的第i行 乘以(点乘)B 的第 j 列。设有 n 维向量令 ,称 为向量 x 与 y 的内积。在线代中秩的定义:一个矩阵 A 的列秩是 A 的线性无关的列的极大数目。类似地,行秩...原创 2018-02-21 13:44:10 · 2223 阅读 · 0 评论 -
机器学习算法数学基础之——微积分篇(1)
最近在听台大老师林轩田老师的機器學習基石课程,意识到做好机器学习必须要把根本学好,也就是机器学习算法的基础 —— 数学。高等数学虽然在本科时已经学过了,但很多概念和定理由于太久不使用,很多细节已经搞不清了。所以打算在知乎记几篇笔记,分别是关于微积分、线性代数、统计与概率论三个部分的一些常用知识点。当前这篇是关于微积分部分的,包括:罗尔定理、柯西中值定理、拉格朗日中值定理、泰勒展开、夹逼准则、洛...原创 2018-02-13 09:35:44 · 7307 阅读 · 0 评论 -
基于 PSO 算法解决 TSP 项目
PSO (Particle Swarm Optimization) 算法即粒子群优化算法,源于对鸟群捕食行为的学习。基本思想是:个体获取的局部信息提供给群体,群体根据所有局部信息获得一个动态的全局最优解,每个个体再根据这个全局最优解调整自身的局部最优解,这个过程进行迭代,直到达到终止条件。TSP (Traveling Salesman Problem) 即旅行商问题,简单来说就是:给定 n 个...原创 2018-01-27 02:36:15 · 4129 阅读 · 0 评论