机器学习
马行处
改变思维方式,从产品,项目本身开始
展开
-
聚类算法概念复习
聚类算法基本概念复习原创 2022-10-28 09:38:25 · 696 阅读 · 1 评论 -
机器学习概念复习版
机器学习概念复习及面试原创 2022-10-24 14:24:58 · 1035 阅读 · 0 评论 -
遗传算法理解
最近有个项目,需要做启发式算法的最优解,所以想用遗传算法解决。遗传算法,遗传就是生物学里的继承关系。从父辈,祖辈不断的继承和变异基因,从石器时代的石头变成现在的便携式电脑,从大哥大到苹果13promax。 从60hz 到120hz。代表了每个时代的适应性和变革性。如图一 遗传算法流程图图一第一步 Initialization初始化解释:随机产生多个物种,万物混沌,有恐龙有天上飞的,地下跑的,生物多样性达到了巅峰第二步Fitness适合度解释:由于环境要求及变化,万原创 2022-02-24 11:04:45 · 311 阅读 · 0 评论 -
pandas处理数据多方式(2)
删除某列指定值所在的行 count 为列名,【1】代表数值e_s = e_s[~e_s['count'].isin([1])]原创 2021-04-09 13:37:54 · 141 阅读 · 0 评论 -
pandas 处理数据的多方式(1)
持续更新中原创 2021-03-31 14:45:15 · 188 阅读 · 0 评论 -
正负样本
机器学习:二分类问题:laber :0 负样本laber:1 正样本深度学习:目标检测负样本:与识别目标相反的数据,样本正样本:需要识别的主体目标样本困难样本:预测时与真值标签误差较大的样本简单样本:预测时与真值标签误差较小的样本...原创 2020-12-10 11:17:42 · 788 阅读 · 0 评论 -
文章推荐系统(1)
用ItemCF和userCF用户行为数据简介积极行为:用户明确表示对物品喜好的行为。评分、喜欢、不喜欢。包括:collect、share、like、attention(关注)隐形行为:不能明确反应用户喜好的行为。比如页面浏览。view、buy、post(f发布)最后会有思维导图来决定业务流程。欢迎关注。...原创 2020-04-22 14:34:44 · 389 阅读 · 0 评论 -
召回率,精确率和F平均值,浅谈
精确率:700 / (700 + 200 + 100) = 70%公式:召回率 = 700 / 1400 = 50%公式:F值 = 70% * 100% * 2 / (70% + 100%) = 82.35% 备注:F 值即为正确率和召回率的调和平均值。...原创 2020-04-21 19:50:56 · 1040 阅读 · 2 评论 -
anaconda3 解决 error while loading shared libraries: 和CXXABI_1.3.8' not found
1.利用消息中间件查出缺少的组件/root/anaconda3/bin/uwsgi --http ip:6000 --socket ip:6000 --wsgi-file wsgiapp.py --callable app --master --processes 4 --threads 2报错:/root/anaconda3/bin/uwsgi: error while load...原创 2018-04-03 11:03:42 · 7780 阅读 · 2 评论 -
如何选择机器学习算法
如何选择机器学习算法如果您知道要使用哪种算法或算法配置,你需不需要使用机器学习?有没有最佳的机器学习算法或算法参数?。我甚至每天都会看到这些问题:哪种机器学习算法最好?机器学习算法和问题之间的映射是什么?机器学习算法的最佳参数是什么?这些问题有一个模式。您通常不会事先知道这些问题的答案。 你必须通过实证研究来发现它。有一些广泛的启发式回答可以回答这些问题,但即使这些问题可能...原创 2018-06-21 17:43:52 · 733 阅读 · 0 评论 -
怎么做好游戏分析师
1.了解游戏产品制作流程、游戏产品的系统架构,知道游戏产品的基本运营思路,知道游戏玩家的基本游戏行为和情感诉求。2.从最基础的指标定义开始,建立整个业务团队对数据指标的共识理解和应用思路,这是一切数据化驱动的起点。无论是在平时的业务协作中,还是在定期的培训会中,始终坚持传播统一的数据理解和理念,如基础指标、同比环比值的定义、所适用的应用场景,整体趋势加维度细分的分析思路等。深入参与具体项...原创 2018-07-20 14:42:02 · 1332 阅读 · 0 评论 -
维度惩罚
简单说明:第一个样本集:20个特征可以组成的数据集 2G的容量第二个样本集:200个特征组成的数据集 20G的容量 维度惩罚就是:如果第一个样本集的特征都是重要特征,他需要的训练数据差不多也够,这样模型所承担的算法时间和准确度比较合适。如果第二个样本集的特征中有些对于模型本身并不是重要特征,而且训练的时间也会增加不止十倍以上的时间,准确度也会下降,泛化能力相反不会比第一个数据集...原创 2018-09-10 11:52:46 · 641 阅读 · 0 评论 -
十大经典机器学习算法入门
决策树根据一些 feature(特征) 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。图2 决策树原理示意图随机森林在源数据中随机选取数据,组成几个子集:图3-1 随机森林原理示意图S矩阵是源数据,有1-N条数据,A、B、C 是featur...转载 2018-12-12 13:45:13 · 413 阅读 · 0 评论 -
机器学习sklearn 以及流程方法
http://python.jobbole.com/86910/在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-...转载 2019-03-09 15:13:07 · 504 阅读 · 0 评论 -
集成学习与决策树,随机森林概述
集成学习的第一个问题就是如何得到若干个个体学习器。这里我们有两种选择。I.第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。II.第二种是所有的个体学习器不全是一个种类的,或者说是异质的。比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强...原创 2019-03-09 15:23:38 · 916 阅读 · 0 评论 -
【年度盘点】10大最热门Python项目回顾
这10个项目,约有270000人学习过。今天给大家盘点一下实验楼最热门的10个Python练习项目。第二名是《200 行 Python 代码实现 2048》,第三名是《Python3 实现火车票查询工具》。有没有学过5门以上的同学?10. Python 气象数据分析 当前学习人数:10506。该项目对意大利北部沿海地区的气象数据进行分析与可视化。通过学习对数据进行清...转载 2019-03-21 09:25:06 · 1119 阅读 · 0 评论 -
机器学习不得不知的的特征工程
何为特征工程特征使用方案1)要实现我们的目标需要哪些数据2)可行性评估:获取难度,覆盖率,准确率特征获取方案1)如何获取这些特征?2)如何存储,什么样的形式存储特征清洗1)特征清洗,异常样本的清晰2)采样数据均衡问题特征预处理1)对于单个特征:归一化,标准化,离散化,dummy coding,缺失值填充,数据变换(log,指数)2)对于多个特征:...转载 2019-03-22 10:56:12 · 164 阅读 · 0 评论 -
Matlab中plot函数一共能调用颜色字母
前段时间用SVR调参,需要对C的权重进行修改,所以上网搜了一下颜色的区分和字母代表的含义plt.hold(True)plt.plot(X, y, 'bo', fillstyle='none')plt.plot(X, result1, 'r.') 红色plt.plot(X, result2, 'g.') 绿色plt.plot(X, result3, 'c.') 亮蓝plt.plot(...原创 2018-09-12 18:36:49 · 12164 阅读 · 1 评论 -
机器学习的路,感觉很受用
营长的一位转型AI的朋友,最近对营长抱怨,“走过的最远的路,就是机器学习过程中的弯路”,然后开始各种blablabla,从论文的坑,到模型的坑,再到培训的坑...一路吐槽。 尤其是论文,他骂道:“最讨厌的就是那种,高高在上、假装清高、站着说话不腰疼、戳不到痛点的论文。比如那一堆只能在理论中刷存在感,实际落地中只能‘呵呵哒’的论文,根本就是浪费时间。” 的确,对于现在刚刚入行的机器学...转载 2018-08-15 17:16:34 · 372 阅读 · 0 评论