TccccD-CSDN博客

原创数据挖掘实践与我的想法之特征工程

从一个最近的天池数据挖掘比赛--商铺定位赛，记录部分特征工程实践内容。本博客采用二分类XGBOOST模型，同时涉及部分的多分类模型。

2017-11-29 14:58:54 3684

原创 MXNet多机分布式配置

mxnet多机分布式配置将一台机器上的mxnet拷到另外两台机器上scp -r /home/hzz/mxnet hzz@9.91.21.37:/home/hzz/mxnet如果已经在自己的环境安装好mxnet或者不想新建一个Python环境，可以忽略这几步。建立新的Python环境对每台机器，用anacodna的conda建立新的Python环境，在这个环境安装mxnet...

2018-06-27 14:24:26 3270

原创 MXNet下，随机生成图片Iter

为了测试有时需要随机生成图片文件，为了自己predict需要去掉了label。 MXNet的module比较麻烦，一定需要使用DataIter，于是自己写了测试使用的DataIterclass RandomDataIter(mx.io.DataIter): def __init__(self, batch_size, max_iter=1000, dtype=np.float32, ...

2018-06-22 15:41:23 478

原创 Python查看GPU已使用的显存

pip安装pynvmlpip install nvidia-ml-py3如果是Python2，则pip nvidia-ml-py2之后可以在Python3 下使用了import pynvmlpynvml.nvmlInit()# 这里的0是GPU idhandle = pynvml.nvmlDeviceGetHandleByIndex(0)meminfo = pynvml...

2018-06-22 15:36:40 27564 2

原创机器学习-数据挖掘-千千问------更新时间 2018.3.23

问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程，数据挖掘的流程怎么做特征工程的数据预处理的方法有哪些归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的，提取特征的方法提取了多少特征，特征的维度，哪些特征比较好对特征的评估方法是什么，怎么判断其好坏用了什么模型 ...

2018-03-23 19:21:40 533

转载为什么深度学习不采用牛顿法或拟牛顿法作为优化算法？

出处：http://blog.csdn.net/VictoriaW/article/details/71710280 原因一：牛顿法需要用到梯度和Hessian矩阵，这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。原因二：即使可以得到梯度和Hessian矩阵，当输入向量的维度N较大时，Hessian矩阵的大小

2018-02-05 00:43:39 3198

原创 mac下单机版 kafka + spark + python搭建与实例

kafka＋zookeeper不提供spark安装，这里从kafka安装开始首先下载kafka和zookeeperbrew install zookeeper等它安装完毕，先进入zookeeper文件夹，往往在/usr/local/Cellar下，启动zookeeper：cd /usr/local/Cellar/zookeeper/3.4.6_1/bin zkServ

2018-01-13 20:44:01 1380

原创机器学习笔记：kMeans聚类

kMeans聚类优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。适用数据类型：数值型数据K-均值算法：先随机确定k个初始点作为质心，然后将数据集中的每个点分配到一个簇中，具体来讲为每个点找距其最近的质心，并将其分配给该质心所对应的簇。再每个簇更新质心为该簇所有点的平均值。Python 3.6实现kMeans算法import numpy as n

2018-01-11 23:31:12 1190

原创机器学习笔记：回归树

回归树：优点：可以对复杂和非线性的数据建模缺点：结果不易理解适用数据类型：数值型和标称型

2018-01-11 19:16:35 735

原创 Python中遇到的比较纠结的问题记录-----持续更新

1.set操作之后转换成list出现乱序问题。In[0]: list(set(['1','2','3','4']))Out[1]: ['1', '3', '4', '2']这时候只要按照之前的顺序重新排序即可：a = ['1','2','3','4']sorted(list(set(a)),key=a.index)Out[1]: ['1', '2', '3',

2018-01-09 22:23:16 334

原创 Spark之深入理解RDD结构

RDDRDD(Resilient Distributed Datasets,弹性分布式数据集)，是Spark最为核心的概念，自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点： 1. 是一个分区的只读记录的集合； 2. 一个具有容错机制的特殊集； 3. 只能通过在稳定的存储器或其他RDD上的确定性操作（转换）来创建； 4. 可以分布在集群的节点上，以函数式操

2018-01-06 22:57:53 21683

转载 Spark技术内幕整理------持续更新

整理自博客专栏《Spark技术内幕》SparkContext---从SparkContext开始Executor---------Executor分配详解Master-----------Master的故障恢复RDD--------------究竟什么是RDDStage-------------Stage划分及提交，Task向Executor提交

2018-01-04 21:32:21 1104

原创 GBDT与XGBOOST的联系和区别

最近翻阅了一些介绍GBDT与XGBOOST的原理的博客和论文，网上以及有很多介绍它们的文章了，但博主还是想记录一下它们的原理以及自己的理解，即是方便自己翻阅复习也是希望大佬们提提建议。GBDTGBDT即是Gradient Boosting Tree（梯度提升树），很容易联想到的是这里的梯度提升与Gradient Descend（梯度下降）之间的关系。不去理解这个“Boosting ”，

2018-01-03 12:30:33 14473 3

转载通俗易懂解释负载均衡

转自菜鸟教你如何通俗理解——>集群、负载均衡、分布式在“高并发，海量数据，分布式，NoSql，云计算......”概念满天飞的年代，相信不少朋友都听说过甚至常与人提起“集群，负载均衡”等，但不是所有人都有机会真正接触到这些技术，也不是所有人都真正理解了这些“听起来很牛的”技术名词。下面简单解释一下吧。（从一个网站上面看到的，例子很有趣，分享给大家）集群(

2017-11-15 10:09:41 2299 2

原创用Python进行数据挖掘（数据预处理）

用Python进行数据挖掘（数据预处理）本博客进行数据预处理的方法总结自kaggle的几道题目： 1.HousePrices 2.Titanic 以及比较不错的几个kernels： 1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora

2017-08-27 19:42:23 114676 8

原创机器学习笔记：线性回归

线性回归：优点：结果易于理解，计算上不复杂缺点：对非线性的数据拟合不好适用数据类型：数值型和标称型设X为数据集，xi为每一行所包含的特征的值，yi为每一行xi的结果，如图：其中xiT表示为xi的转置，abc。。。n表示xi所包含的特征值。设Yi表示用回归系数的向量wi预测出来的y值，如图：有大量的训练集X，也会出现大量的回归系数W，但我们只取一个

2017-08-15 10:46:07 550

原创机器学习笔记：SVM

SVM-Support Vector Machines-支持向量机优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据支持向量机最主要的还是选出离分隔超平面最近的点，这些点叫支持向量，然后最大化支持向量到分隔面的距离。不能耐心的看完SVM的理论了，实在是太多。。等老师给我们讲的

2017-08-01 21:35:07 354

原创机器学习笔记：Logistic回归

Logistic回归优点：计算代价不高，易于理解和实现缺点：容易欠拟合，分类精度可能不高适用数据类型：数值型和标称型数据实现Logistic回归我们需要借助类似于阶跃函数的Sigmoid函数，在每个特征上都乘以一个回归系数，然后把所有的结果值相加，将这个结果代入Sigmoid函数中，进而得到一个范围在0-1之间的数值。任何大于0.5的数据被分入1类，小于0.5即被归入0

2017-07-30 10:03:35 590

原创机器学习笔记：朴素贝叶斯

朴素贝叶斯优点：在数据较少的情况下仍然有效，可以处理多类别问题；缺点：对于输入数据的准备方式较为敏感；适用数据类型：标称型数据。这里用到的贝叶斯准则：p(c|x,y)=p(x,y|c)*p(c)/p(x,y)而这个准则可以由我们熟悉的全概率公式推导出来：p(x,y|c) = p((x,y)·c)/p(c)当然这是站在仅限的大学高数知识所能想到的贝叶斯准则：·

2017-07-29 18:08:21 797

原创《机器学习实战》书中python2.7与3.6的区别-持续更新

《机器学习实战》书中使用的是python2.7，而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书，将陆续列出遇到的不同于现实编码的困难与解决方法（如果能解决的话.......）。1.在import numpy时候，书中提倡from numpy import *而我们在学习python3.6时常用import numpy as np，

2017-07-27 15:23:35 7838

原创机器学习笔记：决策树

决策树优点：计算复杂度不高，输出结果易于理解，对中间值得缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题适用数据类型：数值型和标称型如图为决策树的一个形式，最后有“no”、“yes”两个分类结果。

2017-07-27 10:29:27 364

原创机器学习笔记：kNN算法

k-近邻算法优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高适用数据范围：数值型和标称型k的含义：我们只选择样本数据集中前k个最相似的数据，通常不大于20，在这k个数据集中选择出现次数最多的分类作为新数据的分类。kNN算法有很多不同类型，这里介绍的是利用字典存储每个标签出现的频率，operator操作键值进行排序，返回出现最多的分类名称的方

2017-07-26 17:10:03 488

原创 Mac下Hive 出现问题（二）

1.我的mysql是以前玩PHP时候，用mamp打包下载的在Mac下用mamp的mysql启动路径为/Applications/MAMP/Library/bin/mysql2.即使已经有了mysql，也是要下载mysql的jar包mysql-connector-java-5.1.10-bin.jar并放在hive安装目录的lib下，这里不多赘述下载的方法。3.运行$

2017-04-20 10:06:48 818

原创 Mac下Hadoop 出现问题（一）

Mac下的Hadoop，和网上别人的教程以及官方文档差别好像很大，我的是2.7.1版本，也可能是版本问题。出了问题研究了很久，网上也找了很久。1.tcd-pc$ hdfs dfs -put 2.7.1/tcd.docx input这样是会报错的解决方法：在input前面加上/ 就是/input2.tcd-pc$ jps1637 FsShell2341 Na

2017-04-17 10:51:46 1283

原创 UVa ---10391 - Compound Words

这道题主要用来练习stl 的 map 以及string的substr贴上代码#include #include #include using namespace std;mapaa;string s[150005];int main(){ int cnt=0; string a ,b; while (cin>>s[cnt])aa[s[cnt++]]=

2017-02-17 22:44:28 228

原创 iOS开发第一次进入app滚动页思路

每一个app都应该有一个初始页来指示app的功能或者本次更新的新功能，也可以是广告等等；这个初始页需要一个控制器吗？不需要，只要一个scrollview，在appdelegate中[self.window.rootViewController.view addSubview:self.firstUseLoadView];这个初始页应该由scrollview来实现，新建view@in

2017-02-08 14:36:03 418

原创 iOS开发常用宏定义

#ifndef Public_h#define Public_h// 1.判断是否为iOS7#define iOS7 ([[UIDevice currentDevice].systemVersion doubleValue] >= 7.0)#define IOS_VERSION [[[UIDevice currentDevice] systemVersion] floatValue]// 2.

2017-02-05 15:58:01 399

原创 iOS开发利用cell上的view获得这个cell以及他的indexpath和row

这类问题经常会遇到，方法也很简单暴力UITableViewCell *cell = (UITableViewCell*)[[sender superview] superview]; NSIndexPath *indexPath = [_tableView indexPathForCell:cell]; Frame *frame = array[indexPath.row];

2017-02-05 00:37:39 378

原创 iOS开发多个cell在初始化时注意重用池

多个cell在-(UITableViewCell *)tableView:(UITableView *)tableView cellForRowAtIndexPath:(NSIndexPath *)indexPath方法中一定要分开来，用if或者switch，每一次上滑下拉都会调用这个方法，所以init初始化前面也必须加上if (cell0 == nil)来判断，不然会in

2017-02-05 00:31:08 976

原创 iOS开发 navigation跳转时隐藏tabbar

navigation跳转时常常需求隐藏tabbar来提高效果这个问题研究了很久，其实只要在跳转时候调用DCV.hidesBottomBarWhenPushed = YES; //隐藏tabbar[self.navigationController pushViewController:DCV animated:YES];

2017-02-05 00:14:40 1063

原创 iOS开发数组中保存frame

一下子要init很多控件，有些情况把控件的frame放在nsarray数组里会方便很多，遍历着init；也会有很多情况用到。那么如何把frame装入nsarray呢[_array addObject:[NSValue valueWithCGRect:staticLabel.frame]];先转换成nsvalue 再用valuewithcgrect 搞定CGRect frame =

2017-02-04 23:45:21 1299

原创 iOS开发图标大小不合适时重绘图标大小

有时会遇到得到的图片／图标的大小不是很贴合需求，这时最好找美工，也可以自行重绘UIImage *icon = [UIImage imageNamed:@"rili.png"]; CGSize itemSize = CGSizeMake(20, 20); //重绘图标，设置大小 UIGraphicsBeginIma

2017-02-04 23:35:35 444

原创 iOS开发从下往上弹出提醒视图或日期选择视图等等背景为半透明

从下往上弹出提醒视图或日期选择视图等等，背景为半透明，弹下去时半透明慢慢消失，最后隐藏先是背景与日期选择的初始化-(void)initTimeView{ //时间背景提醒视图 //背景透明黑 _blackView = [[UIView alloc]initWithFrame:CGRectMake(0, 60, screen_width, screen_h

2017-02-04 19:30:40 2179

原创 iOS开发通知中心传值以及仅通知

利用通知中心传递信息在一个控制器传给上一个控制器的情况经常用到不传值时常用于触发某种action：在发送方：[[NSNotificationCenter defaultCenter]postNotificationName:@"post" object:self]; 在接收方：[[NSNotificationCenter defaultCenter]addOb

2017-02-04 19:03:19 1045

原创 UVa-232 Crossword Answers

A crossword puzzle consists of a rectangular grid of black andwhite squares and two lists of definitions (or descriptions).One list of definitions is for “words” to be written left toright acros

2017-01-17 00:32:07 335

原创 UVa-227 - Puzzle

这题真是搞了很久，输出格式一直有错，仅供参考，代码很臃肿。#include #include char a[1001];char s[5][5];int main() { int key=0; while (gets(s[0])) { if (s[0][0]=='Z'){ return 0; }

2017-01-17 00:28:56 368

原创 UVa-455 - Periodic Strings

A character string is said to have period k if it can be formed by concatenating one or more repetitionsof another string of length k. For example, the string ”abcabcabcabc” has period 3, since it i

2017-01-17 00:23:13 369

原创 UVa-1225 - Digit Counting

Trung is bored with his mathematics homeworks. He takes a piece of chalk and starts writing a sequenceof consecutive integers starting with 1 to N (1 times each digit (0 to 9) appears in the seque

2017-01-17 00:19:41 316

原创 UVa-1586 - Molar mass

An organic compound is any member of a large class of chemicalcompounds whose molecules contain carbon. The molarmass of an organic compound is the mass of one mole of theorganic compound. The m

2017-01-17 00:15:40 355

There is an objective test result such as “OOXXOXXOOO”. An ‘O’ means a correct answer of a problemand an ‘X’ means a wrong answer. The score of each problem of this test is calculated by itself andits

2017-01-17 00:07:02 260

天池历届大赛方案

天池历届大赛方案。抽奖中的，天池历届大赛答辩PPT与视频。

2018-01-30

WIN10下重装系统nt10+hdd+installer+v3.2.exe

在win10下因为内核的不同，nt6是无法使用的，需要使用新的nt10。

2018-01-02

mobilenetv2_0.75.pth

pytorch yolov3 backbone This project use threshold=0.1 for faster evaluation,while the original implementation use 0.01. Adjust the training schedules(total epochs,lr scheduler) may further boost the performance. I pick StepLR instead of ConsinLR to accelerate training procedure. Continue training may give better results.

2019-12-23

Alexnet_weight.zip

tensorflow alexnet预训练模型，来自https://github.com/Liu-Yicheng/R-CNN

2020-11-18

腾讯赛1/10数据—

腾讯赛的1/10数据，方便低配置使用，主要为自己存储方便。。。。。。。。。大家不要下

2018-05-22

darknetcoco.pth

pytorch darknet53 backbone的yolov3 This project is inspired by Stronger-Yolo. I reimplemented with Pytorch and continue improving yolov3 with latest papers. This project will also try out some model-compression approaches(e.g. channel-pruning). See reimplementation results in MODELZOO.

2019-12-23

darknet.pth

pytorch darknet53的backbone yolov3模型下载一直失败，折腾好久才下载好，上传上来希望能对需要的人有所帮助

2019-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人