- 博客(57)
- 收藏
- 关注
原创 计算机网络个人笔记:第二章-物理层
二、物理层(一)物理层机制概述物理层实现比特流透明传输(无论比特流是什么都能传),1.先对于接传输媒介(第0层)的接口特性进行定义2.再对传输到媒介上的速率进行定义(为避免失真,最大速度受到奈氏准则和香浓定理的限制),3.以及对传输时的模式进行定义(单双工等通信方式、串行并行的传输方式)4.之后将比特流用比特编码(调制)技术转换为电信号传输到媒介上传播。5.传播过程中通...
2018-11-16 00:22:34
1052
原创 计算机网络个人笔记:第一章-概述
一、概述(一)计算机网络定义1.计算机网络是通过(通信设备)与(线路)将分散的(计算机系统)连接起来,由软件实现(资源共享)和(信息传递)的系统。2.网络={计算机(即主机),结点(集线器、交换机、路由器、计算机等),链路}。网络的网络=互联网={网络,路由器(即结点),链路}。计算机通过链路和结点连接成网络,网络再被链路和路由器连接成互联网。3.演变从ARPAnet到Intern...
2018-11-16 00:21:25
434
原创 数据科学个人笔记:集成方法简单总结
周志华老师《机器学习》+李航老师《统计学习方法》学习笔记 (一)AdaBoost1.Adaboost使用n个弱分类器的结果进行加权,求出的结果即作为预测结果。初始化每个样本的权重为均分,每次训练一个分类器G,训练完成后计算误差率e,而该分类器的权重为alfa=0.5*ln(1-e/e)。每个样本的权重进行调整为w=[w*exp(-alfa*y*G(x))]/所有样本的分子之和。2....
2018-08-20 17:40:18
308
原创 数据科学个人笔记:神经网络(矩阵化+正则化)
继续吴恩达老师的深度学习课程笔记 一、算法实现中的矩阵化方法到此,我们已经讲完了构建并训练出一个神经网络的流程和其中的计算细节。但仅仅是知道这些还不够,要想编写代码去实现这样一个过程,我们需要将上述的计算过程矩阵化。什么是矩阵化呢?就是说,原来我们一个样本一个样本地把x放进神经网络中,然后一个样本一个样本地计算出y*的值。但这样太慢了。我们可以使用一种技巧,如下所述:1.我们设...
2018-08-15 22:45:26
2345
原创 数据科学个人笔记:神经网络(网络结构+反向传播)
该篇主要是学习吴恩达老师的深度学习课程笔记,未完待续 一、待解决的问题现在,我们有一堆样本,每个样本由一组输入值(向量x表示)和一组输出值(向量y表示,在我们举例的模型中y是一个1*1的向量)。我们要解决的问题,是通过这些已知了输入值x和输出值y的样本们,寻找出其中x和y的对应关系,之后我们就可以使用这种对应关系去构建模型,来判断那些只知道x值但不知道y值的样本,它们的y值是多少了。而...
2018-08-15 22:39:03
605
原创 数据科学个人笔记:支持向量机
一、线性可分支持向量机(一)分类器的构造设某样本的特征向量xi为超空间中的一点,则若这些样本线性可分,我们就可以找到一个超平面将他们完全分隔开。若我们已经找出这个超平面,并令左边的为负例,y=-1,右边的为正例,y=1,则我们就构建了一个分类器。(二)函数间隔和几何间隔拟合这个分类器的方法如下:设yi*(w*xi+b)为训练样本的函数间隔,w、b是要拟合的超平面参数,则函数间隔...
2018-08-15 22:33:12
348
原创 数据科学个人笔记:推荐系统之推荐算法(基于内容+标签+半监督学习模型)
一、基于内容的模型(一)推荐系统冷启动问题用户冷启动:给新用户推荐物品冷启动:新物品被推荐系统冷启动:为新开发的网站(还没有用户和用户行为,只有一些物品信息)设计推荐系统冷启动问题的一些解决方案:1.推荐热门;2.用注册信息进行粗粒度的个性化;3.利用社交网络账号信息做社会化推荐;4.在用户登陆时对一些物品进行反馈;5.引入专家知识建立物品相关表;6.利用物品内容信息解决物品冷...
2018-08-15 21:00:28
4084
原创 数据科学个人笔记:推荐系统之推荐算法(基于图+隐语义)
一、隐语义模型(LFM算法)(一)基础算法隐语义分析采取基于用户行为统计的自动聚类,计算出用户和隐类的关系和物品和隐类的关系。此处使用LFM算法,通过如下公式计算用户u对物品i的兴趣:Preference(u,i)=r(ui)=sum(p(u,k)*q(i,k))p(u,k)和q(i,k)时模型的参数,分别度量了类别与用户和物品的关系。我们优化以下的损失函数来找到最合适的参...
2018-08-13 15:38:49
1417
原创 数据科学个人笔记:推荐系统之推荐算法(基于协同过滤)
一、UserCF:(一)算法步骤1.计算用户两两间的相似度,相似度度量方法包括:Jaccard公式:Wuv=[两用户正反馈物品交集数]/[两用户正反馈物品并集数]余弦相似度:Wuv=[两用户正反馈物品交集数]/sqrt(u用户正反馈物品数*v用户正反馈物品数)计算用户两两相似度的技巧:对每个物品保存该物品产生行为的用户,计算用户相似度时依次扫描每个物品的倒排表,对每对用户的交集...
2018-08-13 15:32:01
1797
原创 数据科学个人笔记:推荐系统之实验、评测及结构
学习项亮《推荐系统实践》笔记,未整理 一、推荐系统实验方式:1.离线实验:将用户日志整理成标准数据集,划分训练集和测试集,通过离线指标评测。优点:不需要有对实际系统的控制权,不需要用户参与实验,速度快可以测试大量算法。缺点:无法计算商业上关心的指标,离线实验的指标和商业指标存在差距。2.用户调查:让一些真实用户在测试的推荐系统上完成一些任务,观察和记录他们的行为并回答一些问...
2018-08-13 15:28:32
1253
原创 数据科学个人笔记:决策树算法(ID3、C4.5、CART)
一、一些指标的定义1.熵的定义:用来表示随机变量不确定性的度量(衡量一组数据对于某一特征的不确定性程度),H(X)=-sum(pi*log(pi)),pi表示第i类数据出现的概率(所以衡量熵时要选取一个特征为度量标准)。其中熵的单位当log以2为底为比特,以e为底为纳特。0<=H(x)<=log(类别数)。当类别只取两类如0或1时(二分类问题),H(p)=(-p*log2p)+(-...
2018-08-13 15:16:07
408
原创 数据科学个人笔记:贝叶斯分类器
一、前导内容(一)贝叶斯决策论视角下的机器学习1.设lambda(ij)为将cj的样本分类为ci所产生的损失,则将特征为X的样本分为ci的期望损失(条件风险)R(ci|X)=sum[lambda(ij)*P(cj|X)],我们的任务是找到一个输入特征X能输出类别y=ci的映射h,使得总体风险R(h)=Ex[R(h(x)|x)]最小化。2.也就是说,我们可以将最优分类器(输入为X的函数)h...
2018-08-13 15:13:49
844
原创 数据科学个人笔记:K近邻算法+感知机算法
一、感知机算法感知机算法输入R^n中的向量,输出y={1,-1}。学习函数如下:fx=sign(wx+b),其中sign(x)=1(x>=0)或-1(x<0)。感知机算法仅能处理线性可分数据。将wx+b=0看作向量空间中的分离超平面S,将样本(向量)分到超平面两边。1.数据集的线性可分性:若存在超平面wx+b=0本不该讲数据集的正负例完全正确地分到两侧,即对y=1有wx+b...
2018-08-13 15:06:49
648
原创 数据科学个人笔记:逻辑回归+Softmax回归+广义线性模型
一、逻辑回归1.逻辑回归要解决的问题中y的取值是0或1,故通过y=g(XW)的形式来拟合p(y|X)的条件分布公式。其中g(x)=(1+e^-x)^-1。使用该函数的意思是认为y的对数几率ln(y/(1-y))=XW的线性关系。变换之后即可得到g(x)的形式。2. 逻辑回归假设p(y|X)在参数W的情况下服从p(1)=g(XW)的伯努利分布,即p(y|X)=g(XW)^y*(1-g(X...
2018-08-13 15:03:32
462
原创 数据科学个人笔记:线性回归变种之弹性网络回归+局部散点平滑估计
一、线性回归的变种:局部加权线性回归(本地散点平滑估计LOESS)1.形式:一种非参数学习算法。局部加权线性回归中,针对每个要预测的样本点,我们都要对整个训练集进行一次拟合,因为我们要根据不同训练样本与预测样本的距离不同来调整每个样本的权重。也就是选取一个W,使得各样本均方误差的加权和达到最小。可使用正规方程来求解,正规方程为W=(X^T*X)^-1 *X^T*A*y。A为对角矩阵,对角线每个...
2018-08-13 15:00:59
2545
原创 数据科学个人笔记:偏最小二乘回归+主成分分析+典型相关分析
偏最小二乘回归是PCA、CCA和传统最小二乘模型的结合。一、PCA主成分分析:1.我们希望对数据进行有损压缩,即将属于R^n的x投影为属于R^l的c,有编码函数f(x)=c,使得损失的信息尽量少。同时有对应的解码函数g(c)约等于x。2.PCA由我们确定的解码函数而定,为了简化解码器,我们让g(c)=Dc,其中设D为一个属于R^(n*l)的矩阵,D可以有多个解,但我们假设D中的列向量都...
2018-08-13 14:56:50
12716
原创 数据科学个人笔记:线性回归最小二乘法+Lasso回归+岭回归
一、线性回归的形式1.线性回归通过y=XW的形式来拟合p(y|X)的条件分布公式。X为每行一个样本的矩阵,W为参数列向量。也可用其他形式的函数(如多项式)来进行拟合。2.问题是希望找到最优的W,使得均方误差最小化,即求得使(y-XW)^T*(y-XW)最小的W。问题等价于解上式对W求偏导等于0(此处为零向量,因为均方误差对W求导得到的是梯度向量)的W的解,即2X^T*(XW-y)(使用到了...
2018-08-13 14:49:44
1758
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅