![](https://img-blog.csdnimg.cn/20190322173353375.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习算法详解
主要用于记忆博主的算法详细概述,旨在提高自身技术,请博友多多指点一二
马行处
改变思维方式,从产品,项目本身开始
展开
-
聚类算法概念复习
聚类算法基本概念复习原创 2022-10-28 09:38:25 · 663 阅读 · 1 评论 -
机器学习概念复习版
机器学习概念复习及面试原创 2022-10-24 14:24:58 · 1030 阅读 · 0 评论 -
遗传算法理解
最近有个项目,需要做启发式算法的最优解,所以想用遗传算法解决。遗传算法,遗传就是生物学里的继承关系。从父辈,祖辈不断的继承和变异基因,从石器时代的石头变成现在的便携式电脑,从大哥大到苹果13promax。 从60hz 到120hz。代表了每个时代的适应性和变革性。如图一 遗传算法流程图图一第一步 Initialization初始化解释:随机产生多个物种,万物混沌,有恐龙有天上飞的,地下跑的,生物多样性达到了巅峰第二步Fitness适合度解释:由于环境要求及变化,万原创 2022-02-24 11:04:45 · 290 阅读 · 0 评论 -
用余弦算法做相似度匹配
前面写了一个用simhash 做算法相似度匹配。我觉得俩个算法都可以,但是一定要实践证明算法的稳定性,和模型的准确度。因为开发比较急,所以没有去验证关键词加simhash 的具体准确情况,但是依据我来看会很不错。后期我们上线的是余弦算法的相似度匹配。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。参考网上demo:def similarity(s1, s2): try:原创 2020-05-09 18:24:24 · 1431 阅读 · 4 评论 -
用simhash 去做相似度匹配
前期项目需求需要做一个千万级的文章,新闻类的匹配,周期近20天左右,前半月用simhash 做的算法,从网上和一些博客看到一些资料,经过自己的整理和规划,准备自己出一半simhash 的算法项目服务器:就这个!cat /proc/cpuinfoprocessor : 0vendor_id : GenuineIntelcpu family : 6model : 63model name : Intel(R) Xeon(R...原创 2020-05-09 18:12:22 · 1595 阅读 · 4 评论 -
403 POST /api/contents (::1): Permission denied: Untitled.ipynb
上传文件jupyter notebook 显示权限不够的问题403 POST /api/contents (::1): Permission denied: Untitled.ipynb可以用命令 到windows cmd 下:jupyter notebook --allow-root --generate-config得知你的jupyter_notebook_conf...原创 2020-03-30 10:21:38 · 2265 阅读 · 2 评论 -
anaconda3 解决 error while loading shared libraries: 和CXXABI_1.3.8' not found
1.利用消息中间件查出缺少的组件/root/anaconda3/bin/uwsgi --http ip:6000 --socket ip:6000 --wsgi-file wsgiapp.py --callable app --master --processes 4 --threads 2报错:/root/anaconda3/bin/uwsgi: error while load...原创 2018-04-03 11:03:42 · 7733 阅读 · 2 评论 -
如何选择机器学习算法
如何选择机器学习算法如果您知道要使用哪种算法或算法配置,你需不需要使用机器学习?有没有最佳的机器学习算法或算法参数?。我甚至每天都会看到这些问题:哪种机器学习算法最好?机器学习算法和问题之间的映射是什么?机器学习算法的最佳参数是什么?这些问题有一个模式。您通常不会事先知道这些问题的答案。 你必须通过实证研究来发现它。有一些广泛的启发式回答可以回答这些问题,但即使这些问题可能...原创 2018-06-21 17:43:52 · 707 阅读 · 0 评论 -
怎么做好游戏分析师
1.了解游戏产品制作流程、游戏产品的系统架构,知道游戏产品的基本运营思路,知道游戏玩家的基本游戏行为和情感诉求。2.从最基础的指标定义开始,建立整个业务团队对数据指标的共识理解和应用思路,这是一切数据化驱动的起点。无论是在平时的业务协作中,还是在定期的培训会中,始终坚持传播统一的数据理解和理念,如基础指标、同比环比值的定义、所适用的应用场景,整体趋势加维度细分的分析思路等。深入参与具体项...原创 2018-07-20 14:42:02 · 1326 阅读 · 0 评论 -
Matlab中plot函数一共能调用颜色字母
前段时间用SVR调参,需要对C的权重进行修改,所以上网搜了一下颜色的区分和字母代表的含义plt.hold(True)plt.plot(X, y, 'bo', fillstyle='none')plt.plot(X, result1, 'r.') 红色plt.plot(X, result2, 'g.') 绿色plt.plot(X, result3, 'c.') 亮蓝plt.plot(...原创 2018-09-12 18:36:49 · 12123 阅读 · 1 评论 -
机器学习不得不知的的特征工程
何为特征工程特征使用方案1)要实现我们的目标需要哪些数据2)可行性评估:获取难度,覆盖率,准确率特征获取方案1)如何获取这些特征?2)如何存储,什么样的形式存储特征清洗1)特征清洗,异常样本的清晰2)采样数据均衡问题特征预处理1)对于单个特征:归一化,标准化,离散化,dummy coding,缺失值填充,数据变换(log,指数)2)对于多个特征:...转载 2019-03-22 10:56:12 · 159 阅读 · 0 评论 -
【年度盘点】10大最热门Python项目回顾
这10个项目,约有270000人学习过。今天给大家盘点一下实验楼最热门的10个Python练习项目。第二名是《200 行 Python 代码实现 2048》,第三名是《Python3 实现火车票查询工具》。有没有学过5门以上的同学?10. Python 气象数据分析 当前学习人数:10506。该项目对意大利北部沿海地区的气象数据进行分析与可视化。通过学习对数据进行清...转载 2019-03-21 09:25:06 · 1093 阅读 · 0 评论 -
集成学习与决策树,随机森林概述
集成学习的第一个问题就是如何得到若干个个体学习器。这里我们有两种选择。I.第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。II.第二种是所有的个体学习器不全是一个种类的,或者说是异质的。比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强...原创 2019-03-09 15:23:38 · 907 阅读 · 0 评论 -
机器学习sklearn 以及流程方法
http://python.jobbole.com/86910/在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-...转载 2019-03-09 15:13:07 · 469 阅读 · 0 评论 -
十大经典机器学习算法入门
决策树根据一些 feature(特征) 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。图2 决策树原理示意图随机森林在源数据中随机选取数据,组成几个子集:图3-1 随机森林原理示意图S矩阵是源数据,有1-N条数据,A、B、C 是featur...转载 2018-12-12 13:45:13 · 407 阅读 · 0 评论 -
维度惩罚
简单说明:第一个样本集:20个特征可以组成的数据集 2G的容量第二个样本集:200个特征组成的数据集 20G的容量 维度惩罚就是:如果第一个样本集的特征都是重要特征,他需要的训练数据差不多也够,这样模型所承担的算法时间和准确度比较合适。如果第二个样本集的特征中有些对于模型本身并不是重要特征,而且训练的时间也会增加不止十倍以上的时间,准确度也会下降,泛化能力相反不会比第一个数据集...原创 2018-09-10 11:52:46 · 638 阅读 · 0 评论 -
机器学习的路,感觉很受用
营长的一位转型AI的朋友,最近对营长抱怨,“走过的最远的路,就是机器学习过程中的弯路”,然后开始各种blablabla,从论文的坑,到模型的坑,再到培训的坑...一路吐槽。 尤其是论文,他骂道:“最讨厌的就是那种,高高在上、假装清高、站着说话不腰疼、戳不到痛点的论文。比如那一堆只能在理论中刷存在感,实际落地中只能‘呵呵哒’的论文,根本就是浪费时间。” 的确,对于现在刚刚入行的机器学...转载 2018-08-15 17:16:34 · 357 阅读 · 0 评论