自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 降维PCA和LDA

1. 降维当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一个分类模型。PCA和LDA有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中,但是PCA和LDA的映射目标不...

2019-12-27 18:03:34 278

原创 样本不均衡问题

1. 什么是样本不均衡问题简单来说:对于分类问题样本的label比例不均衡【例如正负样本的比例不是1:1】;几乎所有的分类问题都存在数据不均衡的问题,一般来说,样本不均衡的的比例在1:35是可以用的【忘记哪来的了,仅供参考】,但是很多特定的问题背景下数据根本达不到这个最低的标准【1:35】,甚至比例极度失衡【例如1:800000】例如:1.欺诈问题【电话欺诈,信用卡盗刷等】2.自然灾...

2019-12-27 17:40:46 741

原创 降维(PCA 和LDA)

####降维: ''' 当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大, 导致计算量大,训练时间长的问题, 因此降低特征矩阵维度也是必不可少的。 常见的降维方法除了以上提到的基于L1惩罚项的模型以外, 另外还有主成分分析法(PCA)和线性判别分析(LDA), 线性判别分析本身也是一个分类模型。 PCA和LDA有很多的相似点,其本质是要将原始的样本映射

2017-08-23 03:08:22 569

转载 深度学习网络训练技巧汇总

转载自 炼丹实验室   :https://zhuanlan.zhihu.com/p/20767428训练技巧对深度学习来说是非常重要的,作为一门实验性质很强的科学,同样的网络结构使用不同的训练方法训练,结果可能会有很大的差异。这里我总结了近一年来的炼丹心得,分享给大家,也欢迎大家补充指正。参数初始化。下面几种方式,随便选一个,结果基本都差不多。但是一定要做。否则可能会减

2017-08-22 12:43:24 469

转载 深度学习网络调参技巧_02

转载自 炼丹实验室 :https://zhuanlan.zhihu.com/p/24720954之前曾经写过一篇文章,讲了一些深度学习训练的技巧,其中包含了部分调参心得:深度学习训练心得。不过由于一般深度学习实验,相比普通机器学习任务,时间较长,因此调参技巧就显得尤为重要。同时个人实践中,又有一些新的调参心得,因此这里单独写一篇文章,谈一下自己对深度学习调参的理解,大家如果有其他技巧,

2017-08-22 12:40:05 526

转载 深度学习网络调试技巧_01

转自炼丹实验室 :https://zhuanlan.zhihu.com/p/20792837神经网络的代码,比一般的代码要难调试不少,和编译错误以及运行时程序崩溃相比,神经网络比较棘手的地方,往往在于程序运行正常,但是结果无法收敛,这个检查起来可要麻烦多了。下面是根据我平时调试神经网络的经验,总结的一些比较通用的调试技巧,后续会再写一篇文章,专门介绍一下theano如何进行调试,希望能对大

2017-08-22 12:37:43 537

原创 查找和排序

二分查找算法:def search(list,m): low = 0 high = len(list) - 1 while(low <= high): mid = (low + high)/2 if(list[mid] > m): high = mid - 1 elif(list[mid] <

2017-08-18 23:39:02 263

原创 18.树的子结构

输入两棵二叉树A,B,判断B是不是A的子结构。(ps:我们约定空树不是任意一个树的子结构)# -*- coding:utf-8 -*-# class TreeNode:#     def __init__(self, x):#         self.val = x#         self.left = None#         self.right = Non

2017-08-17 12:59:50 245

原创 17.合并连个排序的链表

输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则。直接上代码,可读性强,运行空间较大,牛客网运行时间:36ms  占用内存5760k# -*- coding:utf-8 -*-# class ListNode:#     def __init__(self, x):#         self.val = x#        

2017-08-17 12:29:43 223

原创 使用selenium调用火狐浏览器爬取网页文本及链接

时间:2017年8月6号晚上3点40分    ,   失眠了,闲来无事写个随笔吧。几天前朋友问我能不能帮他爬取一个网址的文本及链接,想自己整理一便以方便学习,网址:http://www.bianceng.cn/Programming/cplus/需求:将网页内的文本内容及对应超链接保存到本地,总共60页,1773条考虑到网页中第一页的url为:http://www.bianceng

2017-08-06 03:36:17 5163

转载 pandas 常用函数

本文翻译自文章: Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas

2017-06-25 23:49:14 4297

原创 window7下安装Scarpy

1.安装Python      不多说,记得配置环境变量2.安装lxml    lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。     cmd窗口下运行:python -m pip install lxml3.安装setuptools  一般都已经安装了的,可在cmd中用 python -m pip list 查看是否已经安装,如果没安装

2017-06-24 13:35:39 682

转载 csv数据导入导出mysql的方法

转载:http://www.cnblogs.com/mliang/p/3513951.htmlmysql自己有个csv引擎,可以通过这个引擎来实现将csv中的数据导入到mysql数据库中,并且速度比通过php或是python写的批处理程序快的多。 具体的实现代码示例: 代码如下:load data infile '/tmp/file.csv' into table _table

2017-03-31 05:19:59 375

原创 ubuntu下安装mysql可视化工具MySQL-workbench

sudo apt-get update sudo apt-get upgrade安装mysqlsudo apt-get install mysql-serversudo apt-get install mysql-clientsudo apt-get install libmysqlclient-dev安装mysql的

2017-03-31 05:11:01 564

转载 ubuntu 下python中安装xgboost包

原文出处:http://www.linuxdiyf.com/linux/23764.htmlXGBoost is an optimized distributed gradient boosting library designed to be highly efficient, flexible and portable. It implements machine learning

2017-03-03 09:40:21 379

转载 逻辑回归(Logistic regression)详解-并用scikit-learn训练逻辑回归拟合Iris数据集

原文出处http://blog.csdn.net/xlinsist/article/details/51289825引言这篇文章主要介绍逻辑回归背后的一些概率概念,给你一些直观感觉关于它的代价函数的由来。并且我也介绍了关于最大似然估计(maximum likelihood)的概念,用这个强大的工具来导出逻辑回归的cost函数。接着,我用scikit-learn训练了感知机模型来让你

2017-03-01 21:30:53 1697

转载 scikit-learn 逻辑回归类库使用小结

原文出处:http://www.cnblogs.com/pinard/p/6035872.html1. 概述    在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegress

2017-03-01 15:35:45 1296

转载 Ubuntu下apt-get命令详解

在Ubuntu下,apt-get近乎是最常用的shell命令之一了,因为他是Ubuntu通过新立得安装软件的常用工具命令。本文列举了常用的APT命令参数:apt-cache search package 搜索软件包apt-cache show package  获取包的相关信息,如说明、大小、版本等sudo apt-get install package 安装包

2017-02-27 15:35:16 334

原创 如何生成libsvm格式数据

也许你的数据格式是txt格式,xls格式,data格式,csv格式等等,但是你想转成libsvm格式的数据(如下图所示):我知道的两种方法:第一种方法对数据的大小有一定的限制,还比较麻烦,第二种方法对数据集大小无限制,还方便快捷。方法1. 注意事项:把标签放到最后列在进行如下过程①下载FormatDatalibsvm.xls 这个东西比较隐蔽,很多之前的链接都不在了,找了很久最后还

2016-11-11 15:59:30 2601

原创 matlab和python中引用libsvm工具包

第一次使用libsvm,由于身边没有人指导,饶了很多弯路,写一下使用心得:有的人喜欢用matlab包,有的python包,有的R语言包,我简单说一下如何配置的问题:1.matlab上配置libsvm,下载libsvm,自己搞定,不提供连接了,matlab用2014版本以上的,因为2014版及以后的版本用libsvm是不要编译的,直接上步骤吧:打开matlab-——>设置路径——>选择(添加

2016-11-11 15:34:23 1112

原创 组合分类方法——装袋(bagging);提升(boosting)和AdaBoost;随机森林

此篇文章仅作为个人学习笔记之用,内容来之数据挖掘技概念与技术(第三版)一书。由于编辑很是麻烦,我直接截图WPS下编辑好的内容。二、提升(boosting)和AdaBoost三、随机森林

2016-10-01 11:40:14 3733

原创 笔试——约德尔测试

#include #include int calut(char m[],char l[],int len){ int count=0; for (int j=0; j<len; j++) { if((m[j]>='0'&&m[j]='a'&&m[j]='A'&&m[j]<='Z')) m[j]='1'; else m[j]='0'; } f

2016-09-13 04:09:13 396

原创 笔试题—股神

代码(C语言):#include int calut(int m){int count,temp,h ;temp = m;for (int j=1; temp-j>=0; j++){      temp=temp-j;      h=j;      count=1+(j-2)*(j-1)/2;}  if((m-(h+1)*h/2)>0)

2016-09-13 02:17:24 594

转载 Precision和Recall(召回率)

本文是转载别人博客的部分博文,仅为了查看方便作为个人笔记之用。假设原始样本中有两类,其中:1:总共有 P个类别为1的样本,假设类别1为正例。 2:总共有N个类别为0 的样本,假设类别0为负例。 经过分类后:3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN; 4:有 FP 个类别为0 的样本

2016-09-12 07:50:37 1196

mulan-1.5.0.zip

weka的木兰库(mulan)

2016-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除