- 博客(15)
- 资源 (23)
- 收藏
- 关注
原创 国内外无人驾驶技术相关调研
引言最近在做无人驾驶相关的调研,主要调研目前主流无人驾驶公司的数据来源,软件平台,硬件平台相关的内容,现整理如下,权当做个笔记~ 接下来我将以Waymo公司的无人驾驶技术来详细讲讲这里面的一些细节。Waymowaymo理所当然是目前全球领域最顶尖的无人驾驶技术公司了,依托于Google这个庞大的技术平台(16年末从Alphabet拆分出去)。很可惜waymo人家不开源,因此我们只能从他们的官网以及
2017-11-27 15:32:46 6158 3
原创 pandas之get_dummies
方法pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)该方法可以讲类别变量转换成新增的虚拟变量/指示变量。常用参数 data : array-like, Series, or DataFrame 输入的数据
2017-11-26 09:54:03 25797 1
原创 Lightgbm-GPU运行出错(2017.11)boost::filesystem::create_directory...Abort (core dumped)
问题描述在编译lightgbm GPU版本时并没有出错,但是在运行demo时发生了错误,错误如下: 解决方法后来发现,源文件目录:src/treelearner/gpu_tree_learner.h的第26行代码:#define BOOST_COMPUTE_USE_OFFLINE_CACHE如果包含这个这个宏 BOOST_COMPUTE_USE_OFFLINE_CACHE,就会导致要寻找缓存目录,
2017-11-24 10:23:56 3818
原创 Pandas之skew,求偏度
skew定义偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。 表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。 定义上偏度是样本的三阶标准化矩: skew(X)=E[(X−μσ)3](1)skew(X)=E[(\frac{X-\mu}{\sigma})^3]......
2017-11-21 12:54:12 34953
原创 Numpy之random.randint产生随机整数
本文主要讲述了如何使用Numpy的random.randint来产生随机整数,我们演示了如何生成不同上限或下限的指定大小的数组
2017-11-18 16:11:55 108748
原创 Pandas之drop_duplicates:去除重复项
本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法
2017-11-17 11:15:49 331055 16
原创 Xgboost参数调优的完整指南及实战
引言Xgboost是一种高度复杂的算法可以处理各种各样的数据。相信每个用过Xgboost的人都有过这样的感受:利用Xgboost构建模型十分简单,但是用Xgboost来调参提升模型就很难了。该算法使用多个参数。为了改进模型,必须对参数进行优化。但是我们很难找到实际问题的答案——你应该调整哪些参数?这些参数的理想值是什么?以前我写过一篇Xgboost与lightgbm参数对比的文章,但是感觉应该把Xg
2017-11-14 17:09:34 63480 12
原创 Gini coefficient直观的解释与实现
引言大家在机器学习中经常会看到基尼系数的词汇,有时候在做比赛的时候,有些赛题的Scoring Metric就是基尼系数。我们去Google或者Baidu,得到的都是些不甚满意的经济学相关的解释。那么在机器学习、数据挖掘领域,基尼系数在实际的应用场景中又该如何解释以及如何实现呢?基尼系数的经济学解释首先,我们先看一张从Wiki上找来的经典图片: 基尼系数是一个分布不平衡程度的度量。它被定义成大小
2017-11-14 12:10:07 16230 8
原创 在分类及预测任务中对高维类别(category)变量的预处理方法
引言众所周知,数据挖掘中大约有80%的时间被用来做数据预处理。其中高维类别数据是数据挖掘算法(比如神经网络、线性or逻辑回归、SVM)最具挑战性的数据类型。事实上,在一些像决策树或者一些规则归纳的学习算法中,对类别数据并不需要额外的处理。但是一些回归算法却需要将每一个输入特征都转变成数值类型的特征。而且在现实生活中,我们需要解决的分类或者预测问题的数据集中,充满了类别属性,比如:ZIP码,SIC,I
2017-11-12 19:20:48 11023 9
原创 特征分析之SVD
引言前面我们分享降维分析之PCA分析及实现,说PCA除了应用在数据降维上,还可用于特征分析。今天我们就来分享个新的特征分析的方法,叫做奇异值分解(Singular Value Decomposition,SVD)。SVD背后的数学原理我们如果在Google搜索引擎中输入SVD这个单词,会弹出好多图片,如下其中一幅: ;如果我们在Baidu搜索引擎中搜索SVD的话,百度百科的解释是这样的:SVD德拉
2017-11-09 11:56:36 1436 1
原创 降维分析之PCA分析及实现
引言不知道大家还记不记得前面我们分享 支持向量机(SVM)的分析及python实现时说过,当数据遇到线性不可分时,我们可以利用kernel技巧将低维数据映射到高维数据上,从而使得数据线性可分,这是个“升维”操作。那么本章我们就来分享个“降维”操作。为什么要降维众所周知,降维的目标就是对输入的数据进行削减,由此剔除数据中的噪声并提高机器学习方法的性能。那么为什么会有降维的操作呢?那是因为高维空间会出现
2017-11-09 10:17:43 2503
原创 FP-growth算法
demo 代码:传送门引言上次分享Apriori算法时,我们有提到Apriori算法在每次增加频繁项集的大小时,会重新扫描整个数据集。当数据集很大时,这会显著降低频繁项集发现的速度。而本次分享的FP-growth(frequent patten)算法就能高效地发现频繁项集。 那么在现实生活中,是否存在应用FP-growth算法的产品呢?答案是存在的,如下图所示: 上图中,我们在Google搜
2017-11-08 21:09:50 1534
原创 关联分析之Apriori算法
本文demo源码、实验数据:传送门引言如题,关联分析这个词语对于初学者而言或许比较陌生。但是我若将关联分析换成另一个短语“尿布与啤酒”大家就会很熟悉了。据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。这样商店实际上可以将尿布和啤酒放在一块,并确保在周四的销售中获利。“尿布与啤酒”是关联分析中最著名的例子。那么关联分析的定义也就呼之欲出了:从大规模数据集中寻找物品间的隐含关系被称作关
2017-11-08 14:03:41 7073 9
原创 K-means聚类算法原理分析与实际应用案例分析(案例分析另起一篇博客)
引言在数据分析中,我们常常想将看上去相似或者行为形似的数据聚合在一起。例如,对一个营销组织来说,将不同客户根据他们的特点进行分组,从而有针对性地定制营销活动,这很重要。又比如,对学校老师来说,将学生分组同样能够有所侧重的进行教育活动。分类与聚类是数据挖掘领域两大基础方法,分类被用于监督学习中而聚类算法属于无监督的。聚类算法主要是将相似的数据聚合在一起形成不同的组别,但是组与组之间相差很大。 在本次
2017-11-02 16:05:28 9864
原创 CART分类回归树分析与python实现
引言前面我们分享过一篇决策树算法叫ID3:ID3决策树原理分析及python实现。首先我们来回顾下ID3算法。ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的。这种按某种特征切分完数据集后,当前特征在下次切分数据集时就不再起作用,因此会存在切分方式过于迅速地问题。ID3算法还存在另一个问题就是它不能直接处理连续型特征,因此算法需要改进。于是有人提出了二元切分法很好的解决
2017-11-01 16:27:16 8116
ChatGPT探索系列文章合集,涉及理解ChatGPT的来龙去脉,原理背景等方面内容
2023-05-15
三万字保姆级教程+AI绘画+设计、装修、教育+手把手带你玩转Midjourney AI绘画
2023-04-28
AI专题报告之一:AIGC与ChatGPT正掀起新一轮的产业浪潮-从“上网”到“上算”,由“网络世界”至“虚拟现实”
2023-03-14
47页深度研报:揭秘ChatGPT身后的AIGC技术和它的中国同行们.pdf
2023-03-14
2023AIGC市场研究报告及ChatGPT推动的变革趋势与投资机会.pdf
2023-03-14
A Preprocessing Scheme for High-Cardinality Categorical Attributes
2017-11-12
在分类及预测任务中对高维类别变量的预处理方法
2017-11-12
K近邻算法讲解、python实现、k值的确定(python实现,具体代码讲解请看博主博客)
2017-09-25
Python_TreeMap_可视化方案数据源(实现代码,请看我博客专栏《机器学习》)
2017-09-05
Python Matplotlib TreeMap可视化方案数据源(实现代码,请看我博客专栏《机器学习》)
2017-09-04
Python TreeMap可视化方案数据源(实现代码,请看我博客专栏《机器学习》)
2017-09-04
斯坦福大学机器学习课程原始讲义
2017-08-31
The+Practical+Importance+of+Feature+Selection
2017-07-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人