TcD的博客

与其感慨路难行,不如马上出发!

数据挖掘实践与我的想法之特征工程

从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。 本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。

2017-11-29 14:58:54

阅读数 2300

评论数 0

MXNet多机分布式配置

mxnet多机分布式配置 将一台机器上的mxnet拷到另外两台机器上 scp -r /home/hzz/mxnet hzz@9.91.21.37:/home/hzz/mxnet 如果已经在自己的环境安装好mxnet或者不想新建一个Python环境,可以忽略这几步。 建立新的Pytho...

2018-06-27 14:24:26

阅读数 1524

评论数 0

MXNet下,随机生成图片Iter

为了测试有时需要随机生成图片文件,为了自己predict需要去掉了label。 MXNet的module比较麻烦,一定需要使用DataIter,于是自己写了测试使用的DataIter class RandomDataIter(mx.io.DataIter): def __init__(...

2018-06-22 15:41:23

阅读数 100

评论数 0

Python查看GPU已使用的显存

pip安装pynvml pip install nvidia-ml-py3 如果是Python2,则pip nvidia-ml-py2 之后可以在Python3 下使用了 import pynvml pynvml.nvmlInit() # 这里的0是GPU id handle = py...

2018-06-22 15:36:40

阅读数 6575

评论数 0

机器学习-数据挖掘-千千问------更新时间 2018.3.23

问项目 谈谈你最熟的或者做的时间最长的项目 描述项目解决的问题 描述数据挖掘竞赛解决的问题 描述对问题的分析 描述解决方案的流程,数据挖掘的流程 怎么做特征工程的 数据预处理的方法有哪些 归一化标准化方法有哪些 对缺失值处理方法有哪些 对项目的数据做了哪些处理 怎么提取特征的,提取特征的方...

2018-03-23 19:21:40

阅读数 203

评论数 2

为什么深度学习不采用牛顿法或拟牛顿法作为优化算法?

出处:http://blog.csdn.net/VictoriaW/article/details/71710280 原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。...

2018-02-05 00:43:39

阅读数 484

评论数 0

mac下单机版 kafka + spark + python搭建与实例

kafka+zookeeper 不提供spark安装,这里从kafka安装开始 首先下载kafka和zookeeper brew install zookeeper 等它安装完毕,先进入zookeeper文件夹,往往在/usr/local/Cellar下,启动zookeeper: ...

2018-01-13 20:44:01

阅读数 829

评论数 0

机器学习笔记:kMeans聚类

kMeans聚类 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据 K-均值算法: 先随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲为每个点找距其最近的质心,并将其分配给该质心所对应的簇。 再每个簇更新质心为...

2018-01-11 23:31:12

阅读数 191

评论数 0

机器学习笔记:回归树

回归树: 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型

2018-01-11 19:16:35

阅读数 258

评论数 0

Python中遇到的比较纠结的问题记录-----持续更新

1. set操作之后转换成list出现乱序问题。 In[0]: list(set(['1','2','3','4'])) Out[1]: ['1', '3', '4', '2'] 这时候只要按照之前的顺序重新排序即可: a = ['1','2','3','4'] sorted(...

2018-01-09 22:23:16

阅读数 143

评论数 0

Spark之深入理解RDD结构

RDD RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。 RDD的特点: 1. 是一个分区的只读记录的集合; 2. 一个具有容错机制的特殊集; 3. 只能通...

2018-01-06 22:57:53

阅读数 7867

评论数 0

Spark技术内幕整理------持续更新

整理自博客专栏《Spark技术内幕》 SparkContext---从SparkContext开始 Executor---------Executor分配详解 Master-----------Master的故障恢复 RDD--------------究竟什么是RDD ...

2018-01-04 21:32:21

阅读数 438

评论数 0

GBDT与XGBOOST的联系和区别

最近翻阅了一些介绍GBDT与XGBOOST的原理的博客和论文,网上以及有很多介绍它们的文章了,但博主还是想记录一下它们的原理以及自己的理解,即是方便自己翻阅复习也是希望大佬们提提建议。 GBDT GBDT即是Gradient Boosting Tree(梯度提升树),很容易联想到的是这里的...

2018-01-03 12:30:33

阅读数 3385

评论数 0

通俗易懂解释负载均衡

转自菜鸟教你如何通俗理解——>集群、负载均衡、分布式  在“高并发,海量数据,分布式,NoSql,云计算......”概念满天飞的年代,相信不少朋友都听说过甚至常与人提起“集群,负载均衡”等,但不是所有人都有机会真正接触到这些技术,也不是所有人都真正理解了这些“听起来很牛的...

2017-11-15 10:09:41

阅读数 823

评论数 0

用Python进行数据挖掘(数据预处理)

用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目: 1.HousePrices 2.Titanic 以及比较不错的几个kernels: 1.https://www.kaggle.com/pmarcelino/house-prices-advan...

2017-08-27 19:42:23

阅读数 42079

评论数 5

机器学习笔记:线性回归

线性回归: 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 适用数据类型:数值型和标称型 设X为数据集,xi为每一行所包含的特征的值,yi为每一行xi的结果,如图: 其中xiT表示为xi的转置,abc。。。n表示xi所包含的特征值。 设Yi表示用回归系数...

2017-08-15 10:46:07

阅读数 276

评论数 0

机器学习笔记:SVM

SVM-Support Vector Machines-支持向量机 优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据 支持向量机最主要的还是选出离分隔超平面最近的点,这些点叫支持向量,然后...

2017-08-01 21:35:07

阅读数 167

评论数 0

机器学习笔记:Logistic回归

Logistic回归 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据 实现Logistic回归我们需要借助类似于阶跃函数的Sigmoid函数, 在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个结果代入Sigmoid函数中,...

2017-07-30 10:03:35

阅读数 281

评论数 0

机器学习笔记:朴素贝叶斯

朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题; 缺点:对于输入数据的准备方式较为敏感; 适用数据类型:标称型数据。 这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y) 而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c) = p((x...

2017-07-29 18:08:21

阅读数 211

评论数 1

《机器学习实战》书中python2.7与3.6的区别-持续更新

《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。 由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。 1.在import numpy时候,书中提倡from numpy ...

2017-07-27 15:23:35

阅读数 6393

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭