![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
YouShouldKnowMe
脑电算法研究中心的资深数据分析师,拥有超过4年的数据分析实战经验。专业技能涵盖了数据分析的全生命周期,包括但不限于数据采集、数据清洗、高级统计分析、动态数据可视化、特征工程以及复杂数据建模等领域。熟练运用多种数据分析工具和技术,包括Python、SQL、SPSS/SPSSPRO、Tableau以及Microsoft Excel等,能够高效地处理和分析大规模数据集。分析专长倾向于统计学领域,能够执行包括描述性统计、方差分析、卡方检验、回归分析、因子分析、相关性分析以及聚类分析等多种统计方法。
展开
-
sklearn流程
#encoding=gbk"""传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。"""#===============1.获取数据 ========================# ==============1.1 sklearn中的数据集,必须导入datasets模块========...原创 2019-08-17 16:51:16 · 475 阅读 · 0 评论 -
sklearn使用
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一个方面。其实最好的教程就是官方文档(http://scikit-learn.org/stable/),但是官方文档讲述的太过于详细,同时很多人对官方文档的理解和结构认识上都不能很好的把握。我写这篇文章的目的是想用一篇文章讲清楚整个sklearn库,我会讲清楚怎么样用这个库,而不是讲清楚每一个知识点。(授人以鱼不如授人以渔)(本文很...转载 2019-08-17 15:26:34 · 236 阅读 · 0 评论 -
sklearn-决策树(监督学习)
决策树优缺点决策树的优势:便于理解和解释。树的结构可以可视化出来。训练需要的数据少。其他机器学习模型通常需要数据规范化,比如构建虚拟变量和移除缺失值,不过请注意,这种模型不支持缺失值。由于训练决策树的数据点的数量导致了决策树的使用开销呈指数分布(训练树模型的时间复杂度是参与训练数据点的对数值)。能够处理数值型数据和分类数据。其他的技术通常只能用来专门分析某一种变量类型的数...原创 2019-08-17 14:47:53 · 263 阅读 · 0 评论 -
sklearn-- 朴素贝叶斯(监督学习)
朴素贝叶斯GaussianNB:先验为高斯分布的朴素贝叶斯MultinomialNB:先验为多项式分布的朴素贝叶斯BernoulliNB:先验为伯努利分布的朴素贝叶斯应用场景一般来说,如果样本特征的分布大部分是连续值,使用GaussianNB会比较好如果如果样本特征的分大部分是多元离散值,使用MultinomialNB比较合适如果样本特征是二元离散值或者很稀疏的多元离散值,...原创 2019-08-17 14:22:29 · 442 阅读 · 0 评论 -
sklearn--NearestNeighbors(监督学习)
源码 def __init__(self, n_neighbors=5, radius=1.0, algorithm='auto', leaf_size=30, metric='minkowski', p=2, metric_params=None, n_jobs=None, **kwargs): ...原创 2019-08-17 13:46:47 · 3015 阅读 · 1 评论 -
推荐系统详解
1、基于内容的推荐系统(1)基于内容的推荐算法概述 基于内容的推荐算法(Content-based Recommendations, CB)也是一种工业界应用比较广的一种推荐算法。由于协同过滤推荐算法中仅仅基于用户对于商品的评分进行推荐,所以有可能出现冷启动的问题,如果可以根据物品的特性和用户的特殊偏好等特征属性进行比较直观的推荐就可以解决这个冷启动的问题。 CB算法虽然需要依赖物品和用户偏...原创 2019-08-13 09:08:58 · 596 阅读 · 1 评论 -
机器学习算法应用场景60例
本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池...转载 2019-08-11 18:18:58 · 2731 阅读 · 0 评论 -
机器学习算法应用场景
各种机器学习算法的应用场景分别是什么? 关于这个问题我今天正好看到了这个文章。讲的正是各个算法的优劣分析,...转载 2019-08-11 18:15:15 · 353 阅读 · 0 评论 -
sklearn python API
LinearRegressionfrom sklearn.linear_model import LinearRegression # 线性回归 #module = LinearRegression()module.fit(x, y)module.score(x, y)module.predict(test)LogisticRegressionfrom sk...转载 2019-08-07 17:26:30 · 181 阅读 · 0 评论 -
如何快速安装TensorFlow
管理员权限打开CMD后输入pip install -i https://pypi.douban.com/simple tensorflow原创 2019-08-09 19:39:14 · 4180 阅读 · 5 评论 -
知识图谱
知识图谱的定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据...转载 2019-08-13 21:06:15 · 1606 阅读 · 0 评论 -
数据降维的方法
降维:一种能在减少数据集中特征数量的同时,避免丢失太多信息并保持/改进模型性能的方法。什么是降维?每天,我们都会生成大量数据,而事实上,现在世界上约90%的数据都是在过去3到4年中产生的,这是个令人难以置信的现实。如果你不信,下面是收集数据的几个示例:Facebook会收集你喜欢、分享、发布、访问的内容等数据,比如你喜欢哪家餐厅。智能手机中的各类应用会收集大量关于你的个人信息,比如你所在的地点。淘...转载 2019-08-13 20:30:42 · 3062 阅读 · 0 评论 -
机器学习十大算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上...转载 2019-08-07 22:05:21 · 170 阅读 · 0 评论