harderharder-CSDN博客

原创决策树、XGboost、随机森林

提起决策树，可以从叶子节点，分支节点和分支条件，以及防止过拟合的方法这四个方面去考虑。决策树的核心思想是在特征列表中找到一个最优特征，然后从这个特征的取值中选出最优的候选值，利用这个候选值将数据集分为两个子集，以此进行递归。最优特征的选取借助于信息增益或者信息增益比，在非2分类的问题中，无需寻找最优特征的最优候选值。决策树的停止条件是：当检测到数据的分类效果已经够好的时候，可以停止，或者说当某...

2018-09-11 22:06:44 961

原创 python学习笔记第五章

1.对象是属性和方法的集合。同样也有继承机制。——init——就是python的构造函数。变量私有化是在变量前加上——，#继承机制class Cat: def hello(self): print("i'm a cat")class Dog(Cat): def eat(self): print("i eat bone")kitty = Dog(...

2018-05-25 12:05:45 215

原创 python学习笔记第四章

1.set 表示为{1,2,3,4,5,6},set不支持index调用元素。访问集合中的元素可以使用for，当不想要集合被随意更改时，使用frozen关键字，frozenset([1,2,3,4])这样的集合不能被随意篡改。2. 文件。打开文件使用open(file,mode = 'r'),file 是要打开的文件，mode 是打开的模式，r是只读，w是写入然后覆盖，a是写入追加，+是可读写模式...

2018-05-24 16:36:25 201

原创 python学习笔记第三章

1. 序列，列表和元组和字符串统称为序列，list()生成一个空列表，list(a)将a序列化为列表。tuple(a) 将a转为元祖，str（a）将a转为字符串，len(a)返回a的长度。max(a)返回a中的最大值，如果非数字就返回ASCII码值。min（a）返回最小值。sum（a,start）计算a的和再加上start。sorted(a)将a进行排序。reversed()逆转,返回值是迭代器对...

2018-05-24 12:00:20 406

原创 python学习笔记第二章

1. python中支持三元操作符，比如s = x if x< y else y2. assert后面的条件为真则执行，为假就自爆。在需要程序中某个节点是正确时才执行。相当于一个检查点的作用。3. for循环，智能调用next, def test1(): array = ['one','two','three','four','five'] for i in array: ...

2018-05-22 17:29:02 181

原创 python入门笔记第一章

1 python的注释还是用#表示。多行注释使用ctrl+/快捷键。有4种数的类型，整数，长整数，浮点数和复数。2 在python中字符串可以使用单引号和双引号，方法完全相同。三引号中可以自由使用单引号和双引号。字符串是不可变的3 转义符，用\表示比如‘what\'s you name?'行末的单独一个反斜杠表示该字符串在下一行继续，而不是开始一个新的行。如果对于正常的\不需要转义处理，只需要在字...

2018-05-18 21:23:45 162

原创剑指Offer 从尾到头打印链表(java)

题目描述输入一个链表，从尾到头打印链表每个节点的值。题目分析：从尾到头首先想到的就是栈，只用打印节点的值，可以构造个Integer类型的栈，存储节点的值。javaimport java.util.ArrayList;import java.util.Stack;//从尾到头使用栈结构public class Solution { public ArrayList<Integer...

2018-05-04 11:07:13 211

原创 R语言中回归树预测模型及其评估

使用回归树预测模型的优点是可以处理缺失值问题，首先需要先加载rpart包。回归树自动筛选某些相关的变量，所以不是所有的变量都会在树中出现。回归树的建立分为2步：1.生成一颗较大的树。然后删除一些底层节点来进行树的修剪。防止过拟合。在构建树的过程中，当给定条件满足时构建过程就停止：1）偏差的减小小于阈值时，2）当节点中的样本数量小于某个给定界限时3）当树的深度大于某个给定的界限时。这三个参数在rpa...

2018-05-02 11:51:15 4904

原创 R语言进行数据处理

首先summary数据特性，对于非数值型数据，统计取值的种类数，以及每种出现的频次。对于数值型的特征，统计其数学特性，最小值，第一四分位数，第三四分位数，均值，中位数，最大值，缺失值的数量。用可视化的方法进行数据检查，每一维的特征都分开检查。观察其分布是否有明显区别。一缺失值处理： 1.将有缺失值的样本去除或者进行填补。可以用平均值进行填补（如果满足正态分布的话）；用中位...

2018-05-02 11:31:27 2475

原创 R语言中建模技术

基于观测值之间距离的方法，就是K近邻方法，它基于的假设是：同一类型的样本有类似的特征表达值。K近邻算法实际上没有从训练数据得到一个模型，只是存储了这个训练集数据，在给定测试样本时，在存储的训练集中寻找类似的样本作为预测值，选择K个最为相似的训练集样本用来给定测试样本的预测值。因为预测值是采用投票的方法决定的，所以K的选值最好是奇数。太稀疏的数据选择的K值不要过大。R包class中有实现k...

2018-04-30 22:57:23 494

原创基因特征的选择

特征选择的方法有两种：1）过滤方法，应用变量的统计特征来选择最终的特征集合应用的例子为，12625行特征，94列样本。目前要处理的问题是，对于样本来说特征太多了，这种大维度的数据，大多数的建模技术很难获得有意义的结果，所以首先要降低变量的数量，得到每个特征在所有样本上的总体分布情况。第一种方法：用中位数和四分位距（IQR）表示这些特征的分布，R包中Biobase科技计算矩阵中每行向量的中位数，ro...

2018-04-30 21:58:17 2595

原创隐马尔可夫模型

马尔科夫过程的核心思想就是随机过程，而隐马尔可夫模型是描述含有隐含未知参数的马尔可夫过程。有你可以观察到的状态链，但是隐马尔可夫处理的是隐含状态链，这些状态之间存在着转换的概率。但是这些东西通常在模型刚开始时是未知的。所以要解决的问题就是：知道隐含状态的数量，状态之间转换的概率。而这些东西都要从可见的状态链中获知。由此引出HMM的三个基本问题：1、概率计算问题，评估问题。向前-向后算法。采用EM算...

2018-04-29 22:06:05 189

原创第三讲线性正则化、第四讲线性分类器

学习的过程是：先在训练集上计算出预测的规则，然后评估它在测试集上的性能。模型复杂的话更加容易overfit，模型不复杂会在训练集上误差变大underfit，但是在测试集上没有那么大。选择合适的模型就是平衡fit,用尽量小的参数表示模型，模型不能太复杂，在train set上error尽量小，在test 上也要尽量小。正则化就是做这件事情的，调节参数的平衡。约束函数空间当特征的维度很大时不用特征的个...

2018-04-21 12:38:26 432

原创常用特征离散化方法

1规定划分区间的参数，取定长的间隔将特征放入不同的箱子中，这种方法对异常点比较敏感。，2 根据频率划分箱子，会出现特征相同却不在一个箱子中的情况，需要在划分完成后进行微调。先对特征值进行sort，然后评估分割点，划分或者合并3 1R方法：将前面的m个实例放入箱子中如果后面实例放入箱子时，比对当前实例的标签是否与箱子中大部分实例标签相同，如果相同就放入，如果不相同就形成下一个m大小的新箱子，将实例全...

2018-04-18 10:46:56 3042

原创选择合适的模型处理问题

首先要考虑的问题？训练集有多大，小训练集使用，高偏差、低方差的模型，朴素贝叶斯大训练集使用，低偏差、高方差的模型，KNN。朴素贝叶斯：不能学习特征之间的交互关系。决策树：不支持在线学习，当样本置新时，决策树需要重建。而且容易过拟合SVM：高准确率，避免过拟合，就算数据在原特征空间是线性不可分的，只要给一个合适的核函数，他就能运行。但是内存消耗大，调参麻烦。提升准确率还是要尝试多种分类器，并且通过...

2018-04-17 11:52:17 385

原创打车问题 java 牛客

编程题] 打车时间限制：1秒空间限制：32768K妞妞参加完Google Girl Hackathon之后,打车回到了牛家庄。妞妞需要支付给出租车司机车费s元。妞妞身上一共有n个硬币，第i个硬币价值为p[i]元。妞妞想选择尽量多的硬币，使其总价值足以支付s元车费(即大于等于s)。但是如果从妞妞支付的这些硬币中移除一个或者多个硬币，剩下的硬币总价值还是足以支付车费的话，出租车司机是不会接受的。例如:...

2018-03-20 23:07:50 322

原创密码翻译（牛客） java

时间限制：1秒空间限制：65536K在情报传递过程中，为了防止情报被截获，往往需要对情报用一定的方式加密，简单的加密算法虽然不足以完全避免情报被破译，但仍然能防止情报被轻易的识别。我们给出一种最简的的加密方法，对给定的一个字符串，把其中从a-y,A-Y的字母用其后继字母替代，把z和Z用a和A替代，则可得到一个简单的加密字符串。输入描述:用gets(s)方式读取这一行字符串.每个字符串长度小于80...

2018-03-20 21:24:50 624

原创 TCP/IP模型的运输层协议TCP UDP

UDP是一个简单的面向数据报的运输层协议：进程的每个输出操作都正好产生一个UDP数据报，并组装成一份待发送的IP数据报，UDP不提供可靠性：它把应用程序传给IP层的数据发送出去，但是并不保证它们能到达目的地。UDP首部的格式：16位源端口号 16位目的端口号 16位UDP长度 16位UDP检验和（检验和只覆盖UDP首部不覆盖任何数据） DNS域名系统：是一种用于TCP/IP的分布式数据库，提供主机...

2018-03-16 18:34:59 855

原创朴素贝叶斯法（naive bayes）逻辑回归（logistic regression）线性回归

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的，但是有的时候会失去一些分类准确性。对于给定的输入x，通过学习到的模型计算后验概率分布，将后验概率最大的类作为x的类输出主要是使用贝叶斯公式推导的过程。在训练过程中可以得到先验概率P(X=x|Y=Ck),和P(Y= Ck) 逻辑回归：基于sigmoid函数，比较概率，x分到概率...

2018-03-15 11:48:37 2899

原创 TCP/IP协议的四层，OSI的七层，两者混合的五层

四层：从上到下应用层：负责处理特定的应用程序细节。几乎各种不同的TCP/IP实现都有： telnet远程登录 FTP文件传输协议 SMTP简单邮件传送协议 SNMP简单网络管理协议运输层：两台主机上的应用程序提供端到端的通信。 TCP(传输控制协议)和UDP（用户数据报协议）。...

2018-03-13 20:21:21 488

原创聚类算法总结划分法，层次聚类，基于网格，基于密度，谱聚类，基于模型，模糊聚类

划分法：K-means:随机选择k个类的初始中心，对每一个样本都求解到k个中心点的距离，将它归类到距离最短的中心所在的类别。通过计算与类别内样本平均距离最小的点作为新的中心点。直到类别的聚类中心点不发生变化算法的时间复杂度是O(nkt),n是所有对象的数目，k是簇的数目，t是迭代的次数，这个算法是局部收敛的。它找到的是使平方误差函数值最小的k个划分，当簇是密集的，球状的时候，聚类效果比较好。特点：...

2018-03-13 18:10:55 15982

原创 9大排序

内排和外排：内排是指在排序的整个过程中，待排序的所有记录全部被放置在内存中。外排序是由于排序的记录个数太多，不能同时放在内存，整个排序过程需要在内外村之间多次交换数据才能进行。1 冒泡排序：基本思想是两两比较相邻记录的关键字，如果反序则交换，最好情况为O（n）,最坏情况为O（n^2）. 稳定空间复杂度O(1)正宗的冒泡排序--从后向前循环，两重，for(i =1;i <L.length;i...

2018-03-12 22:08:10 162

原创数据结构之单词词典 B树

词典即索引，就是将一个关键字与它对应的记录相关联的过程。是典型的根据属性查找记录。在进行过程中可以进行编号压缩，比如：114 116 119 可以记录为114 +2 +3二叉排序树：左子树上的所有结点的值小于它的根节点的值。二叉排序树的作用主要是提高查找和删除关键字的效率。当要删除某个关键字时，找到它的直接前驱或者直接后继，来代替此节点。处理散列冲突的方法1 开放定址法一旦冲突，进入下一个地址，...

2018-03-11 22:31:02 876

原创 17年论文中相关方法整理 SVM ,FA,协同过滤，NMF,BP,随机森林,EM

SVM：可以从低维向高维线性转换。基于结构风险最小化原则提出的，避免局部最优解，人为设定参数少，缺点：太大规模的数据集，SVM要解决的凸二次规划而导致算法效率很低；解不具有稀疏性对于（x1,y1）,(x2,y2).......(xl,yl)，在线性可分的情况下，就会有一个超平面使得这两类样本完全分开。对于非线性可分问题，可以将样本x映射到某个高维特征空间H，药物重定位论文中使用的方法是...

2018-03-11 15:51:27 682

原创聚类中噪音的处理

聚类本身就是最常用的异常值检测方法，大部分非监督的异常值检测都依靠聚类，K-MEANs&层次聚类对离群值非常敏感。改用密度聚类和高斯混合模型。基因数据去噪：对数转换可以使小于 1 的值变大，大于 1 的值变小，从而使它们关于 0 对称化，这种变换是否反映了一定的生物学意义。这样方便计算，但是在标准差接近0的时候，会产生比较大的噪声，log后，先标准化，靠近0的都删除，表达值大于1的是高表...

2018-03-10 15:03:30 8341

原创数据结构串树

串的模式匹配：KMP树：完全二叉树--按顺序排列节点，叶子节点只可能出现在最下面两层。叶子结点数= 度为二的节点数加1顺序存储这种一对多的关系会有不变，使用链式存储二叉链表：一个节点有一个左孩子指针，一个右孩子指针。遍历：前序遍历---根左右中序遍历：左根右后序遍历：左右根线索二叉树：指向前驱和后继指针加上。设立ltag 和rtag，当值为0 时指向该节点...

2018-03-08 18:01:32 499

原创数据结构知识汇总1：线性表，栈和队列

线性表是零个或者多个数据元素的有限序列。线性表中的元素必须是类型相同的。线性表的顺序存储结构：用一段地址连续的存储单元依次存储线性表的数据元素。同时也需要3个属性来描述：1.存储空间的起始位置2.线性表的最大存储容量3.线性表的当前长度其优点为：线性表中的元素可以随时存取线性表的链式存储结构：用一组任意的存储单元存储线性表的数据元素，这组存储单元可以是连续的也可以是不连续的。链式结构除了存储数据本...

2018-03-06 22:18:10 553

qq_29258361的博客