2019年04月_我们家没有秃头的基因

07月 04月

原创机器学习算法之四——聚类（一）

1 K-means算法介绍聚类是一种无监督学习，简单来说就是把相似的对象划分到同一个簇当中，对给定的数据集，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。K-means聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。在数据集中根据一定策略选择K个点作为每...

2019-04-23 15:13:56 651

原创机器学习算法之三——分类（四）

1 SVM基本理论支持向量机SVM（support vector mac），分类的基本思想是利用最大间隔分类，找到空间中的一个超平面，离这个超平面最近的点叫支持向量，点到超平面的距离叫间隔。如果要处理非线性问题，是通过核函数将特征向量映射到高维空间。从而变成线性可分的。1.1几何间隔我们假设超平面的判别式：样本到超平面的几何间隔：，表示权重向量，b表示偏移向量，||...

2019-04-23 14:48:08 2010

原创机器学习算法之三——分类（三）

1 决策树概念决策树是通过一系列的规则进行分类的过程，决策树分为分类树和回归树，分类树是对离散变量进行决策，回归树是对连续变量进行决策。决策树的构造过程实际上是找到具有决定性作用的特征，决定性作用最大的那个作为根节点，然后递归找到次大的，以此类推。一棵决策树的生成过程主要分为以下3个部分: 特征选择：特征选择是从特征集合中找到当前节点的分裂标准，如何选择特征有不同的量...

2019-04-23 10:42:19 717

原创机器学习算法之三——分类（二）

1 朴素贝叶斯介绍我们假设有一个二分类问题，现有一个新的样本点x，我们用贝叶斯决策理论来判断新的样本点应该属于二分类（A,B）的哪一类：如果x属于A类的概率大于属于B类的概率，那么x就属于A类；反之则属于B类。对于多分类ci，那么只需要计算x属于各个分类的概率p，然后找到，其对于的最大概率标签，就是x的分类。那么如何计算每个分类p(ci|x)。没错，就是贝叶斯公式：这里就...

2019-04-23 09:12:45 244

原创机器学习算法之三—分类（一）

1 KNN基本概念 KNN是以近邻为基础的分类器，它不会尝试去构建一个普遍的内部模型，而只是把训练数据的实例简单的存储起来。最终的分类任务只是通过对需要分析或预测的点周围最近邻而完成的。即计算特征值之间的距离来决定，它的思路是：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分...

2019-04-19 15:54:46 297

原创机器学习算法之二——回归（三）

1 公式推导我们先给定一个线性回归的方程损失函数：要求得最优变量就要使得计算值与实际值的偏差的平方最小随机梯度下降算法对于系数需要通过不断的求偏导求解出当前位置下最优化的数据，公式中的θ会向着梯度下降最快的方向减少，从而推断出θ的最优解。对损失值求导：给定一个下降系数（也可以叫学习率、下降的幅度）2 实例本文中的实例的:求解的最优解上一部分参见https...

2019-04-18 17:31:06 276

原创机器学习之一——基础知识

1 前言学会机器学习不仅要懂得这些算法的理论过程，而且要非常熟悉怎样使用它，什么场合用它，算法的优缺点，以及如何调参等。学好机器学习数学真的很重要哇，高数、矩阵论、线性代数要硬啃，但是个人感觉还是在运用的过程中理解比较重要，融会贯通，毕竟最终我们还是要实际应用嘛2 机器学习的分类-如何寻找合适的算法2.1 分类2.2 选择算法流程1 选进行大类的选择2 进行...

2019-04-18 15:28:05 438

原创机器学习算法之二——回归（二）

逻辑回归实际上是广义的线性回归，p= S(ax+b)，然后根据p与1-p的大小决定因变量的值，这里的函数S就是Sigmoid函数。逻辑回归多用于分类。通过函数S的作用，我们可以将输出的值限制在区间[0， 1]上，p(x)则可以用来表示概率p(y=1|x)，即当一个x发生时，y被分到1那一组的概率。这里通常都需要选择一个阈值，比如，y>0.5，那么x就归到1这一类，反之为0那一类。...

2019-04-17 19:38:11 253

原创机器学习算法之二——回归(一)

1 运行实例机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定d维输入变量x，并且每一个输入的x都有对应的值y，要求对于新来的数据预测它对应的连续的目标值t。下面是一元线性回归的例子，表示截距值，表示回归系数。 ...

2019-04-17 17:48:13 454 2

原创在服务器上跑代码总结（linux命令）持续更新ing

连接服务器ssh username@服务器ip创建删除文件（夹）rm -rf a.py　 # 删除文件rm -rf data # 删除文件夹touch a.py/vim a.py # 创建文件mkdir data # 创建文件夹将本地文件上传到服务器#单个文件scp /home/lmc/a.py(local) username@...

2019-04-16 10:31:59 4716 1

原创深度学习框架：caffe-tensorflow-keras-pytorch

现有的几种深度学习的框架有：caffe，tensorflow，keras，pytorch以及MXNet，Theano等，可能在工业界比较主流的是tensorflow，而由于pytorch比较灵活所以在科研中用的比较多。本文算是对我这两年来使用各大框架的一个总结，仅供参考。大四的时候接触到的深度学习，那时候的毕设题目是基于深度学习的图像处理，我采用CNN处理进行细粒度的图像检索，...

2019-04-15 15:43:07 2239

kafka、storm、flink、apex、spark五种流式大数据系统调研报告

本文主要调研了Apache Kafka、Apache Flink、Apache Storm、Apache Apex和Apache Spark Streaming五种流式大数据系统。主要的工作有：1）通过文献阅读和试用比较了它们的实现原理；2）利用了kafka自带的测试脚本进行了kafka性能测试；3）通过Hibench进行了Flink、Storm和Spark Streaming的比较测试；4）进行了Apex的简单测试；5）对以上流式大数据系统进行了总结分析。

2018-06-21

与上一时间窗口相比，用数据库中找次数变化最大的目标端口、协议的出现次数

2017-07-08

jsp里做饼图，求大神指导怎么做

2017-07-07

jsp实现判断然后改变颜色

2017-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人