Read__Book-CSDN博客

原创降维PCA和LDA

1. 降维当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外，另外还有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析本身也是一个分类模型。PCA和LDA有很多的相似点，其本质是要将原始的样本映射到维度更低的样本空间中，但是PCA和LDA的映射目标不...

2019-12-27 18:03:34 299

原创样本不均衡问题

1. 什么是样本不均衡问题简单来说：对于分类问题样本的label比例不均衡【例如正负样本的比例不是1:1】；几乎所有的分类问题都存在数据不均衡的问题，一般来说，样本不均衡的的比例在1:35是可以用的【忘记哪来的了，仅供参考】,但是很多特定的问题背景下数据根本达不到这个最低的标准【1：35】，甚至比例极度失衡【例如1:800000】例如：1.欺诈问题【电话欺诈，信用卡盗刷等】2.自然灾...

2019-12-27 17:40:46 792

原创降维（PCA 和LDA）

####降维： ''' 当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外，另外还有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析本身也是一个分类模型。 PCA和LDA有很多的相似点，其本质是要将原始的样本映射

2017-08-23 03:08:22 601

转载深度学习网络训练技巧汇总

转载自炼丹实验室：https://zhuanlan.zhihu.com/p/20767428训练技巧对深度学习来说是非常重要的，作为一门实验性质很强的科学，同样的网络结构使用不同的训练方法训练，结果可能会有很大的差异。这里我总结了近一年来的炼丹心得，分享给大家，也欢迎大家补充指正。参数初始化。下面几种方式,随便选一个,结果基本都差不多。但是一定要做。否则可能会减

2017-08-22 12:43:24 498

转载深度学习网络调参技巧_02

转载自炼丹实验室：https://zhuanlan.zhihu.com/p/24720954之前曾经写过一篇文章，讲了一些深度学习训练的技巧，其中包含了部分调参心得：深度学习训练心得。不过由于一般深度学习实验，相比普通机器学习任务，时间较长，因此调参技巧就显得尤为重要。同时个人实践中，又有一些新的调参心得，因此这里单独写一篇文章，谈一下自己对深度学习调参的理解，大家如果有其他技巧，

2017-08-22 12:40:05 551

转载深度学习网络调试技巧_01

转自炼丹实验室：https://zhuanlan.zhihu.com/p/20792837神经网络的代码，比一般的代码要难调试不少，和编译错误以及运行时程序崩溃相比，神经网络比较棘手的地方，往往在于程序运行正常，但是结果无法收敛，这个检查起来可要麻烦多了。下面是根据我平时调试神经网络的经验，总结的一些比较通用的调试技巧，后续会再写一篇文章，专门介绍一下theano如何进行调试，希望能对大

2017-08-22 12:37:43 569

原创查找和排序

二分查找算法：def search(list,m): low = 0 high = len(list) - 1 while(low <= high): mid = (low + high)/2 if(list[mid] > m): high = mid - 1 elif(list[mid] <

2017-08-18 23:39:02 280

原创 18.树的子结构

输入两棵二叉树A，B，判断B是不是A的子结构。（ps：我们约定空树不是任意一个树的子结构）# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Non

2017-08-17 12:59:50 263

原创 17.合并连个排序的链表

输入两个单调递增的链表，输出两个链表合成后的链表，当然我们需要合成后的链表满足单调不减规则。直接上代码，可读性强，运行空间较大，牛客网运行时间：36ms 占用内存5760k# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x#

2017-08-17 12:29:43 253

原创使用selenium调用火狐浏览器爬取网页文本及链接

时间：2017年8月6号晚上3点40分，失眠了，闲来无事写个随笔吧。几天前朋友问我能不能帮他爬取一个网址的文本及链接，想自己整理一便以方便学习,网址：http://www.bianceng.cn/Programming/cplus/需求：将网页内的文本内容及对应超链接保存到本地，总共60页，1773条考虑到网页中第一页的url为：http://www.bianceng

2017-08-06 03:36:17 5264

转载 pandas 常用函数

本文翻译自文章： Pandas Cheat Sheet - Python for Data Science，同时添加了部分注解。对于数据科学家，无论是数据分析还是数据挖掘来说，Pandas是一个非常重要的Python包。它不仅提供了很多方法，使得数据处理非常简单，同时在数据处理速度上也做了很多优化，使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas

2017-06-25 23:49:14 4396

原创 window7下安装Scarpy

1.安装Python 不多说，记得配置环境变量2.安装lxml lxml是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。 cmd窗口下运行：python -m pip install lxml3.安装setuptools 一般都已经安装了的，可在cmd中用 python -m pip list 查看是否已经安装，如果没安装

2017-06-24 13:35:39 731

转载 csv数据导入导出mysql的方法

转载：http://www.cnblogs.com/mliang/p/3513951.htmlmysql自己有个csv引擎，可以通过这个引擎来实现将csv中的数据导入到mysql数据库中，并且速度比通过php或是python写的批处理程序快的多。具体的实现代码示例：代码如下:load data infile '/tmp/file.csv' into table _table

2017-03-31 05:19:59 406

原创 ubuntu下安装mysql可视化工具MySQL-workbench

sudo apt-get update sudo apt-get upgrade安装mysqlsudo apt-get install mysql-serversudo apt-get install mysql-clientsudo apt-get install libmysqlclient-dev安装mysql的

2017-03-31 05:11:01 627

转载 ubuntu 下python中安装xgboost包

原文出处：http://www.linuxdiyf.com/linux/23764.htmlXGBoost is an optimized distributed gradient boosting library designed to be highly efficient, flexible and portable. It implements machine learning

2017-03-03 09:40:21 404

转载逻辑回归（Logistic regression）详解-并用scikit-learn训练逻辑回归拟合Iris数据集

原文出处http://blog.csdn.net/xlinsist/article/details/51289825引言这篇文章主要介绍逻辑回归背后的一些概率概念，给你一些直观感觉关于它的代价函数的由来。并且我也介绍了关于最大似然估计（maximum likelihood）的概念，用这个强大的工具来导出逻辑回归的cost函数。接着，我用scikit-learn训练了感知机模型来让你

2017-03-01 21:30:53 1728

转载 scikit-learn 逻辑回归类库使用小结

原文出处：http://www.cnblogs.com/pinard/p/6035872.html1. 概述　　　　在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegress

2017-03-01 15:35:45 1327

转载 Ubuntu下apt-get命令详解

在Ubuntu下，apt-get近乎是最常用的shell命令之一了，因为他是Ubuntu通过新立得安装软件的常用工具命令。本文列举了常用的APT命令参数：apt-cache search package 搜索软件包apt-cache show package 获取包的相关信息，如说明、大小、版本等sudo apt-get install package 安装包

2017-02-27 15:35:16 360

原创如何生成libsvm格式数据

也许你的数据格式是txt格式，xls格式，data格式，csv格式等等，但是你想转成libsvm格式的数据（如下图所示）：我知道的两种方法：第一种方法对数据的大小有一定的限制，还比较麻烦，第二种方法对数据集大小无限制，还方便快捷。方法1. 注意事项：把标签放到最后列在进行如下过程①下载FormatDatalibsvm.xls 这个东西比较隐蔽，很多之前的链接都不在了，找了很久最后还

2016-11-11 15:59:30 2646

原创 matlab和python中引用libsvm工具包

第一次使用libsvm，由于身边没有人指导，饶了很多弯路，写一下使用心得：有的人喜欢用matlab包，有的python包，有的R语言包，我简单说一下如何配置的问题：1.matlab上配置libsvm，下载libsvm，自己搞定，不提供连接了，matlab用2014版本以上的，因为2014版及以后的版本用libsvm是不要编译的，直接上步骤吧：打开matlab-——>设置路径——>选择（添加

2016-11-11 15:34:23 1154

原创组合分类方法——装袋（bagging）；提升（boosting）和AdaBoost；随机森林

此篇文章仅作为个人学习笔记之用，内容来之数据挖掘技概念与技术（第三版）一书。由于编辑很是麻烦，我直接截图WPS下编辑好的内容。二、提升（boosting）和AdaBoost三、随机森林

2016-10-01 11:40:14 3822

原创笔试——约德尔测试

#include #include int calut(char m[],char l[],int len){ int count=0; for (int j=0; j<len; j++) { if((m[j]>='0'&&m[j]='a'&&m[j]='A'&&m[j]<='Z')) m[j]='1'; else m[j]='0'; } f

2016-09-13 04:09:13 430

原创笔试题—股神

代码（C语言）：#include int calut(int m){int count,temp,h ;temp = m;for (int j=1; temp-j>=0; j++){ temp=temp-j; h=j; count=1+(j-2)*(j-1)/2;} if((m-(h+1)*h/2)>0)

2016-09-13 02:17:24 623

转载 Precision和Recall（召回率）

本文是转载别人博客的部分博文，仅为了查看方便作为个人笔记之用。假设原始样本中有两类，其中：1：总共有 P个类别为1的样本，假设类别1为正例。 2：总共有N个类别为0 的样本，假设类别0为负例。经过分类后：3：有 TP个类别为1 的样本被系统正确判定为类别1，FN 个类别为1 的样本被系统误判定为类别 0，显然有P=TP+FN； 4：有 FP 个类别为0 的样本

2016-09-12 07:50:37 1230

Read__Book的博客