自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TcD的博客

与其感慨路难行,不如马上出发!

原创 数据挖掘实践与我的想法之特征工程

从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。 本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。

2017-11-29 14:58:54 3010 0

原创 MXNet多机分布式配置

mxnet多机分布式配置 将一台机器上的mxnet拷到另外两台机器上 scp -r /home/hzz/mxnet hzz@9.91.21.37:/home/hzz/mxnet 如果已经在自己的环境安装好mxnet或者不想新建一个Python环境,可以忽略这几步。 建立新的Pytho...

2018-06-27 14:24:26 2439 0

原创 MXNet下,随机生成图片Iter

为了测试有时需要随机生成图片文件,为了自己predict需要去掉了label。 MXNet的module比较麻烦,一定需要使用DataIter,于是自己写了测试使用的DataIter class RandomDataIter(mx.io.DataIter): def __init__(...

2018-06-22 15:41:23 205 0

原创 Python查看GPU已使用的显存

pip安装pynvml pip install nvidia-ml-py3 如果是Python2,则pip nvidia-ml-py2 之后可以在Python3 下使用了 import pynvml pynvml.nvmlInit() # 这里的0是GPU id handle = py...

2018-06-22 15:36:40 13650 0

原创 机器学习-数据挖掘-千千问------更新时间 2018.3.23

问项目 谈谈你最熟的或者做的时间最长的项目 描述项目解决的问题 描述数据挖掘竞赛解决的问题 描述对问题的分析 描述解决方案的流程,数据挖掘的流程 怎么做特征工程的 数据预处理的方法有哪些 归一化标准化方法有哪些 对缺失值处理方法有哪些 对项目的数据做了哪些处理 怎么提取特征的,提取特征的方...

2018-03-23 19:21:40 269 2

转载 为什么深度学习不采用牛顿法或拟牛顿法作为优化算法?

出处:http://blog.csdn.net/VictoriaW/article/details/71710280 原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。...

2018-02-05 00:43:39 1224 0

原创 mac下单机版 kafka + spark + python搭建与实例

kafka+zookeeper 不提供spark安装,这里从kafka安装开始 首先下载kafka和zookeeper brew install zookeeper 等它安装完毕,先进入zookeeper文件夹,往往在/usr/local/Cellar下,启动zookeeper: ...

2018-01-13 20:44:01 1023 0

原创 机器学习笔记:kMeans聚类

kMeans聚类 优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据 K-均值算法: 先随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲为每个点找距其最近的质心,并将其分配给该质心所对应的簇。 再每个簇更新质心为...

2018-01-11 23:31:12 262 0

原创 机器学习笔记:回归树

回归树: 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型

2018-01-11 19:16:35 313 0

原创 Python中遇到的比较纠结的问题记录-----持续更新

1. set操作之后转换成list出现乱序问题。 In[0]: list(set(['1','2','3','4'])) Out[1]: ['1', '3', �...

2018-01-09 22:23:16 192 0

原创 Spark之深入理解RDD结构

RDD RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。 RDD的特点: 1. 是一个分区的只读记录的集合; 2. 一个具有容错机制的特殊集; 3. 只能通...

2018-01-06 22:57:53 15444 0

转载 Spark技术内幕整理------持续更新

整理自博客专栏《Spark技术内幕》 SparkContext---从SparkContext开始 Executor---------Executor分配详解 Master-----------Master的故障恢复 RDD--------------究竟什么是RDD ...

2018-01-04 21:32:21 753 0

原创 GBDT与XGBOOST的联系和区别

最近翻阅了一些介绍GBDT与XGBOOST的原理的博客和论文,网上以及有很多介绍它们的文章了,但博主还是想记录一下它们的原理以及自己的理解,即是方便自己翻阅复习也是希望大佬们提提建议。 GBDT GBDT即是Gradient Boosting Tree(梯度提升树),很容易联想到的是这里的...

2018-01-03 12:30:33 6773 2

转载 通俗易懂解释负载均衡

转自菜鸟教你如何通俗理解——>集群、负载均衡、分布式  在“高并发,海量数据,分布式,NoSql,云计算......”概念满天飞的年代,相信不少朋友都听说过甚至常与人提起“集群,负载均衡”等,但不是所有人都有机会真正接触到这些技术,也不是所有人都真正理解了这些“听起来很牛的...

2017-11-15 10:09:41 1204 1

原创 用Python进行数据挖掘(数据预处理)

用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目: 1.HousePrices 2.Titanic 以及比较不错的几个kernels: 1.https://www.kaggle.com/pmarcelino/house-prices-advan...

2017-08-27 19:42:23 59710 5

原创 机器学习笔记:线性回归

线性回归: 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 适用数据类型:数值型和标称型 设X为数据集,xi为每一行所包含的特征的值,yi为每一行xi的结果,如图: 其中xiT表示为xi的转置,abc。。。n表示xi所包含的特征值。 设Yi表示用回归系数...

2017-08-15 10:46:07 388 0

原创 机器学习笔记:SVM

SVM-Support Vector Machines-支持向量机 优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据 支持向量机最主要的还是选出离分隔超平面最近的点,这些点叫支持向量,然后...

2017-08-01 21:35:07 196 0

原创 机器学习笔记:Logistic回归

Logistic回归 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据 实现Logistic回归我们需要借助类似于阶跃函数的Sigmoid函数, 在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个结果代入Sigmoid函数中,...

2017-07-30 10:03:35 329 0

原创 机器学习笔记:朴素贝叶斯

朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题; 缺点:对于输入数据的准备方式较为敏感; 适用数据类型:标称型数据。 这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y) 而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c) = p((x...

2017-07-29 18:08:21 255 1

原创 《机器学习实战》书中python2.7与3.6的区别-持续更新

《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。 由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。 1.在import numpy时候,书中提倡from numpy ...

2017-07-27 15:23:35 6966 0

原创 机器学习笔记:决策树

决策树 优点:计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题 适用数据类型:数值型和标称型 如图为决策树的一个形式,最后有“no”、“yes”两个分类结果。

2017-07-27 10:29:27 167 0

原创 机器学习笔记:kNN算法

k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 k的含义:我们只选择样本数据集中前k个最相似的数据,通常不大于20,在这k个数据集中选择出现次数最多的分类作为新数据的分类。 kNN算法有很多不同类型,这...

2017-07-26 17:10:03 269 0

原创 Mac下Hive 出现问题(二)

1.我的mysql是以前玩PHP时候,用mamp打包下载的 在Mac下用mamp的mysql启动路径为/Applications/MAMP/Library/bin/mysql 2.即使已经有了mysql,也是要下载mysql的jar包mysql-connector-java-5.1.10-bi...

2017-04-20 10:06:48 345 0

原创 Mac下Hadoop 出现问题(一)

Mac下的Hadoop,和网上别人的教程以及官方文档差别好像很大,我的是2.7.1版本,也可能是版本问题。 出了问题研究了很久,网上也找了很久。 1.tcd-pc$ hdfs dfs -put 2.7.1/tcd.docx input 这样是会报错的 解决方法:在input前面加上/  就是/i...

2017-04-17 10:51:46 832 0

原创 UVa ---10391 - Compound Words

这道题主要用来练习stl 的 map 以及string的substr 贴上代码 #include #include #include using namespace std; mapaa; string s[150005]; int main(){ int cnt=0; ...

2017-02-17 22:44:28 129 0

原创 iOS开发 第一次进入app滚动页思路

每一个app都应该有一个初始页来指示app的功能或者本次更新的新功能,也可以是广告等等; 这个初始页需要一个控制器吗?不需要,只要一个scrollview,在appdelegate中 [self.window.rootViewController.view addSubview:self.fi...

2017-02-08 14:36:03 242 0

原创 iOS开发 常用宏定义

#ifndef Public_h#define Public_h// 1.判断是否为iOS7#define iOS7 ([[UIDevice currentDevice].systemVersion doubleValue] >= 7.0)#define IOS_VERSION [[[UID...

2017-02-05 15:58:01 219 0

原创 iOS开发 利用cell上的view获得这个cell以及他的indexpath和row

这类问题经常会遇到,方法也很简单暴力 UITableViewCell *cell = (UITableViewCell*)[[sender superview] superview]; NSIndexPath *indexPath = [_tableView indexPathForC...

2017-02-05 00:37:39 138 0

原创 iOS开发 多个cell在初始化时注意重用池

多个cell在 -(UITableViewCell *)tableView:(UITableView *)tableView cellForRowAtIndexPath:(NSIndexPath *)indexPath 方法中一定要分开来,用if或者switch,每一次上滑下拉都会调用这个...

2017-02-05 00:31:08 636 0

原创 iOS开发 navigation跳转时隐藏tabbar

navigation跳转时常常需求隐藏tabbar来提高效果 这个问题研究了很久,其实只要在跳转时候调用 DCV.hidesBottomBarWhenPushed = YES; //隐藏tabbar [self.navigationController pushViewController:...

2017-02-05 00:14:40 742 0

原创 iOS开发 数组中保存frame

一下子要init很多控件,有些情况把控件的frame放在nsarray数组里会方便很多,遍历着init;也会有很多情况用到。 那么如何把frame装入nsarray呢 [_array addObject:[NSValue valueWithCGRect:staticLabel.frame]]; 先...

2017-02-04 23:45:21 929 0

原创 iOS开发 图标大小不合适时重绘图标大小

有时会遇到得到的图片/图标的大小不是很贴合需求,这时最好找美工,也可以自行重绘 UIImage *icon = [UIImage imageNamed:@"rili.png"]; CGSize itemSize = CGSizeMake(20, 20); ...

2017-02-04 23:35:35 177 0

原创 iOS开发 从下往上弹出提醒视图或日期选择视图等等背景为半透明

从下往上弹出提醒视图或日期选择视图等等,背景为半透明,弹下去时半透明慢慢消失,最后隐藏 先是背景与日期选择的初始化-(void)initTimeView{ //时间 背景 提醒视图 //背景透明黑 _blackView = [[UIView alloc]ini...

2017-02-04 19:30:40 1659 0

原创 iOS开发 通知中心传值以及仅通知

利用通知中心传递信息在一个控制器传给上一个控制器的情况经常用到 不传值时常用于触发某种action:        在发送方:[[NSNotificationCenter defaultCenter]postNotificationName:@"post" object:sel...

2017-02-04 19:03:19 782 0

原创 UVa-232 Crossword Answers

A crossword puzzle consists of a rectangular grid of black and white squares and two lists of definitions (or descriptions). One list of definition...

2017-01-17 00:32:07 170 0

原创 UVa-227 - Puzzle

这题真是搞了很久,输出格式一直有错,仅供参考,代码很臃肿。 #include #include char a[1001]; char s[5][5]; int main() { int key=0; while (gets(s[0])) { ...

2017-01-17 00:28:56 263 0

原创 UVa-455 - Periodic Strings

A character string is said to have period k if it can be formed by concatenating one or more repetitions of another string of length k. For example,...

2017-01-17 00:23:13 246 0

原创 UVa-1225 - Digit Counting

Trung is bored with his mathematics homeworks. He takes a piece of chalk and starts writing a sequence of consecutive integers starting with 1 to N ...

2017-01-17 00:19:41 154 0

原创 UVa-1586 - Molar mass

An organic compound is any member of a large class of chemical compounds whose molecules contain carbon. The molar mass of an organic compound is t...

2017-01-17 00:15:40 200 0

原创 UVa-1585-Score

There is an objective test result such as “OOXXOXXOOO”. An ‘O’ means a correct answer of a problemand an ‘X’ means a wrong answer. The score of each ...

2017-01-17 00:07:02 107 0

提示
确定要删除当前文章?
取消 删除