- 博客(37)
- 资源 (1)
- 收藏
- 关注
原创 局部异常因子识别算法(LOF)
from scipy.spatial.distance import cdistimport numpy as npclass LOF: def __init__(self, data, k, epsilon=1.0): self.data = data self.k = k self.epsilon = epsilon self.N = self.data.shape[0] # data矩阵的行数,shap...
2021-04-25 20:52:25 592
原创 Anaconda的相关理解(二)
一、Anaconda Navigator的使用时隔……再次开始对其的学习,发现自己的自律性越来越差。不要反思、悔过了,继续学习吧。立一个Flag,以后每周必需完成一篇本周学习的知识总结。Anaconda的安装以及简单的操作,请看《Anaconda的相关理解(一)》。本文将在上一篇文章的基础上,更深入的学习Anaconda的学习。Anaconda Navigator最大特点是:1、能对不...
2020-01-09 16:55:51 324
原创 学习笔记三、pandas包中常用方法整理
本文由pandas官网提供的十分钟熟悉pandas包的介绍文档整理而成。整理思路:通过pandas包与现有分析工具在使用上的区别,让分析人员能从系统上了解pandas包的功能,以便后期快速上手。 相关资料:1、10 minutes to pandas原文网址:http://pandas.pydata.org/pandas-docs/stable/10min.html2、
2017-12-13 21:11:15 1826
原创 利用python程序抓爬网页,获取城市楼市价格(Python学习实例二)
一、本文实现目的 通过Python语言抓取某房地产网页楼盘数据,用于后期楼盘分析。 1、最后输出:某城市楼盘信息(即excel表格)。 2、页面解析方法:正则表达式 + lxml第三方包二、详细代码 1、网页解析方法详解(本文只对使用到的两种解析方法进行讲解,别的方法后期使用时再补充) 1)、正则表达式
2017-12-07 19:57:15 2115 1
原创 利用wordcloud包,画词云图(Python学习实例一)
一、本文目标 如何使用wordcloud包,绘制词云图。 输入: 1、所需画成词云图的文本数据 2、词云图轮廓所需的图片 输出: 1、满足要求的词云图片二、代码详情 1、使用到的第三方包 wordclo
2017-12-07 17:29:31 3764 2
原创 Anaconda的相关理解(一)
Anaconda安装:1、anaconda的安装:下载完之后,尽量的按照anaconda默认的行为安装,安装时会自动的吧bin目录加入到环境变量path中去。2、使用anaconda对工具包的安装: 在使用过程中,会发现使用conda的下载速度非常的慢,因为使用的是国外的服务器,所以这里要设置为国内的镜像。 配置命令如下: ......
2017-06-11 17:23:10 1221
原创 学习笔记二、调用聚类算法包实现层次
一、应用场景:实现把距离相对更近的样本聚为一类。二、输入样本格式:不对样本对应经纬度。(经纬度为十进制)三、实现过程:1)、计算两样本间距离(使用公式为:haversine公式)计算公式:python实现代码:from math import radians,cos,sin,asin,sqrtdef haversine(lon1, lat1, lon2,
2017-01-16 21:23:56 582
原创 学习笔记一、Python pip包安装
1、下载pip安装包 下载地址https://pypi.python.org/pypi/pip#downloads : 选择source类下载FileTypePy VersionUploaded onSizepip-9.0.1-py2.py3-none-any.whl (md5, pgp)Python
2016-12-13 14:39:54 3435
原创 机器学习总结1
一、机器学习总览1)、什么是机器学习算法给出一个任务T,该算法能自主学习完成任务T的经营E,从而提高完成任务T的完美度P。2)、机器学习算法分类a)、监督学习算法、无监督学习算法、增加学习算法(该类算法解除较少)b)、根据输入、输出变量,分为连续性算法和离散型算法。二、高等数据知识1)夹逼定律回顾例子:得出结论:2)倒
2016-08-21 17:40:50 389
转载 Java笔试题集锦
Java笔试题集锦1.MVC的各个部分都有那些技术来实现?如何实现?答:MVC是Model-View-Controller的简写。"Model" 代表的是应用的业务逻辑(通过JavaBean,EJB组件实现), "View"是应用的表示面(由JSP页面产生),"Controller" 是提供应用的处理过程控制(一般是一个Servlet),通过这种设计模型把应用逻辑,处理过程和显示逻辑分成不
2014-05-22 14:01:23 1510
原创 矩阵分解 Cholesky分解(Cholesky decomposition)
Cholesky分解(Cholesky decomposition):把一个矩阵分解为一个矩阵乘以该矩阵矩阵的转置公式biaod
2014-05-08 19:58:30 2496
转载 一道淘汰85%面试者的百度开发者面试题参考答案
/*** 百度面试题 http://student.csdn.net/mcd/topic/235300/753730* 依序遍历0到100闭区间内所有的正整数,如果该数字能被3整除,则输出该数字及‘*’标记;如果该数字能被5整除,则输出该数字及‘#’标记;* 如果该数字既能被3整除又能被5整除,则输出该数字及‘*#’标记。*/对算法没有什么研究, 只是觉得好的算法能给程
2014-04-29 10:43:15 629
原创 朴素贝叶斯算法学习 (二)
第二、走进朴素贝叶斯算法其实在很早前就听说过贝叶斯这个次,从概率论的贝叶斯公式,到贝叶斯神经网络,所以一直认为贝叶斯就是指的神经网络(太弱的想法了)。最近有一个项目需要用到朴素贝叶斯算法,说这个suanf
2014-04-24 19:16:07 1216
原创 张量的模展开矩阵(Tensor Unfoldings)
张量的模展开矩阵,主要的任务是对张量进行降,转化为矩阵。在张量的矩阵展开过程中,是对组成张量的所有阶按交错次序采样,并非简单地先采取某一阶的特征值在采取另一阶的特征值,而在整个采取过程中对不同阶的特征值进行混合交错采样,这样在采集过程中实现了张量不同阶特征值之间的传递和融合。例如如下:A是一个(4x3x2)三阶张量。下面是对三阶张量A的第一阶模展开矩阵:对三阶张量A
2014-03-02 21:49:43 12659 1
原创 中国各大互联网企业 校园招聘网址(如果有遗漏的希望大家留言添加谢谢)
百度 http://talent.baidu.com/baidu/web/index/CompbaiduPageschool_idx阿里巴巴 http://campus.alibaba.com/ 有实习腾讯 http://join.qq.com/新浪招聘 http://career.sina.com.cn/ 有实习搜狐 http://c
2014-03-02 21:18:00 824
转载 Latent semantic analysis note(LSA)
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文
2014-02-27 23:56:06 915
转载 SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1
2014-02-27 23:54:57 738
转载 JAVA的静态变量、静态方法、静态类
静态变量和静态方法都属于静态对象,它与非静态对象的差别需要做个说明。(1)Java静态对象和非静态对象有什么区别? 比对如下: 静态对象 非静态对象 拥有属性:
2014-02-26 00:17:16 601
转载 形象解释mapreduce
第一篇我们在Domions点餐之后,柜台的小伙子告诉我们说披萨需要15分钟才能准备好。于是,我问妻子:“你真的想要弄懂什么是MapReduce?” 她很坚定的回答说“是的”。 因此我问道:我: 你是如何准备洋葱辣椒酱的?(以下并非准确食谱,请勿在家尝试)妻子: 我会取一个洋葱,把它切碎,然后拌入盐和水,最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。妻子: 但这和MapRe
2014-01-09 14:38:53 2710
转载 从SVD到LSA&PLSA
【Latent semantic analysis】LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,
2014-01-08 12:25:15 1000
原创 libsvm 代码分析
void Solve(int l, QMatrix Q, double[] p_, byte[] y_, double[] alpha_, double Cp, double Cn, double eps, SolutionInfo si, int shrinking){this.l = l;this.Q = Q;QD = Q.get_QD();p = (double
2013-12-03 13:34:30 1722
原创 weka链接SQLserver
在weka安装目录中找到,weka.jar的文件按一下目录找到DatabaseUtils.propsweka.jar\weka\experiment 在DatabaseUtils.props中修改下面部分# General information on database access can be found here:# http://weka.wikispaces.co
2013-11-30 23:48:40 919
转载 weka 安装 libsvm
weka 是个强大的开源数据挖据平台。可以实现样本的分类/回归,聚类,关联分析等功能。但是在使用LIBSVM和liblinear时需要安装两者java版的工具包,不然提示调用到的类不在指定的路径中。具体方法如下:1.下载 wlsvm(weka libsvm) .地址:http://www.cs.iastate.edu/~yasser/wlsvm/。下载Java version of
2013-11-30 23:43:09 2308
原创 SQLserver中把数据文件保存在不同的盘中
有时由于数据太多,一个盘中装不下一个数据库的所有数据,所以需要把一个数据库中的数据存放在不同的硬盘中。首先在该数据库上单击右键,如下图所示:进入属性页面:单击添加按钮,将会出现新的一行,如下图所示:自己设定相应的名字和存储地址即可。
2013-11-30 23:25:35 1535
原创 office中快捷键的设置
在工具栏单击右键,单击自定义快速访问工具栏。进入下面的页面然后指定好相应的快捷键,单击指定就完成了。再单击键盘快捷方式:自定义按钮
2013-11-30 23:13:50 1798
转载 java中的Cloneable和Serializable接口,实现浅克隆和深度克隆
java.lang.Cloneable 接口是一个空接口,该接口用来指明一个对象是否可以进行克隆.实现了该接口的对象可以调用clone()方法来进行对象的浅克隆./* * @author 黎龙飞 , 创建日期 2008-4-16 * * Blog : http://lilongfei1030.blog.163.com */package com.lang.test;
2013-11-13 13:39:19 1075
转载 线性空间的一些直观感悟
转自:http://qiuwei1985.spaces.live.com/前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chensh,谁让你趟这个地雷阵?!色令智昏啊! 线性代数课程,无论你从行列式入
2013-08-25 16:14:48 955
转载 协方差矩阵的概念及matlab计算
引用地址:http://blog.sina.com.cn/s/blog_4aa4593d01012am3.html
2013-07-17 15:55:15 1285
转载 估算不同样本之间的相似性度量(Similarity Measurement)
本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡德距离& 杰卡德相似系数10.相关系数& 相关距离11.信息熵1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理
2013-07-16 00:04:53 1192
原创 Support Vector Machine Algorithm(SVM)算法详细解析
作者:keith本文参考了JULY 的三层SVM讲解网址http://blog.csdn.net/v_july_v/article/details/7624837#comments还有jerrylead的smo算法实现网址http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.htmlleo zhang的svm学习网址
2013-06-19 15:38:51 2566
原创 网址记录
https://www.coursera.org/ Take the world's best courses, online, for free.
2013-05-24 23:14:44 599
转载 Matlab plot 参数设置
一、Matlab绘图中用到的直线属性包括:(1)LineStyle:线形(2)LineWidth:线宽(3)Color:颜色(4)MarkerType:标记点的形状(5)MarkerSize:标记点的大小(6)MarkerFaceColor:标记点内部的填充颜色(7)MarkerEdgeColor:标记点边缘的颜色1、线形
2013-05-09 09:47:27 694
转载 Iterator()
java.util包中包含了一系列重要的集合类。本文将从分析源码入手,深入研究一个集合类的内部结构,以及遍历集合的迭代模式的源码实现内幕。 下面我们先简单讨论一个根接口Collection,然后分析一个抽象类AbstractList和它的对应Iterator接口,并仔细研究迭代子模式的实现原理。 本文讨论的源代码版本是JDK 1.4.2,因为JDK 1.5在java.ut
2013-05-08 22:43:56 573
原创 svm、经验风险最小化、vc维
“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”结构化风险结构化风险 = 经验风险 + 置信风险经验风险 = 分类器在给定样本上的误差置信风险 = 分类器在未知文本上分类的结果的误差置信风险因素:样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小; 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。
2013-05-08 16:38:46 4026
转载 经验风险最小化 与 结构风险最小化
什么是统计学习?看起来高深莫测,其实就是在这干这么一件事情:就是给你看一堆东西,你想办法给一个解释,然后拿着这个解释去判断其它的东西。不过,和物理学不一样,在那里,解释是人想出来的,在统计学习里,解释是机器构造出来的。 在许多问题里面,对象是非常复杂的,要用成百上千,甚至更多的数字去表示一个东西。当统计学家们遇到了这些问题,他们终于从对在一维和二维空间建立起来的基于概率密度的完美的数学体
2013-05-02 00:44:34 831
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人