Sherryllll-CSDN博客

原创最优化方法小结

概述最优化问题的一般数学模型： min f(x)min\ f(\mathbf x) s.t. hi(x)=0,i=1,...,m;s.t. \ h_i(\mathbf x) = 0,\quad i=1,...,m; gj(x)≥0,j=1,...,p.\qquad g_j(\mathbf x)\ge0, \quad j=1,...,p.其中x\mathbf x是n维向量，在实际问题中也被叫

2016-12-21 11:31:40 9709

原创 tensorflow使用记录（一）安装

ubuntu16.04 64-bit python3.5 virtualenvdockerref: https://www.tensorflow.org/versions/r0.11/get_started/os_setup.html#virtualenv-installation 官网上有详细的安装流程，考虑到对现有python环境的影响，我准备用docker或virtualenv安装

2016-10-10 11:00:18 2361

原创 docker使用记录

环境：Ubuntu16.04 64-bit 安装教程：https://docs.docker.com/engine/installation/linux/ubuntulinux/ 安装成功后测试$ sudo service docker start$ sudo docker run hello-world结果建立用户组 The docker daemon binds to a U

2016-10-09 14:58:25 834

原创 Eclipse运行UIMA示例程序出错：找不到或无法加载主类

今天尝试运行示例文件一直出错，很奇怪，命名jar包已经在了，最后在参考文献这篇博客中找到解决办法，但依然很疑惑。。。在UIMA的文档中，尝试按照文档的做法运行example中的Document Analyzer出现如下错误：找不到或无法加载主类 org.apache.uima.tools.docanalyzer.DocumentAnalyzer解决办法：点击Eclipse菜单的Run ->

2016-08-17 15:12:38 982

转载 ubuntu在当前目录代开终端

http://blog.csdn.net/jhchen0808/article/details/38594473

2016-08-16 19:10:02 686

原创 Apache UIMA（二）：配置Eclipse来使用UIMA

本文就假设你已经安装好了Eclipse啦，所以Eclipse的安装配置就跳过了。安装UIMA SDK在UIMA网站上下载UIMA SDK http://incubator.apache.org/uima 解压后放在某个你习惯的目录下，然后设置环境变量 UIMA_HOME，指向你的这个解压文件目录，解压后叫apache_uima，然后再PATH中加上%UIMA_HOME%\bin 安装后按照r

2016-08-16 11:24:47 2569

最近要使用UIMA来做文本挖掘相关工作，写下自己学习和使用它的过程，希望这次能坚持写。以下内容基本都是基于Apache UIMA网站上的说明或文档，具体的可以在文末的参考链接中找到。what is UIMAUIMA 是一个用于分析非结构化内容（比如文本、视频和音频）的组件架构和软件框架实现。一个UIMA的应用示例是可以读入文本识别实体或者关系，如人名，地名，组织或者人和组织间的供职关系，人和地点间的

2016-08-16 09:30:10 4471

原创 Django 登陆访问权限@login_required

在网站开发过程中，经常会遇到这样的需求：用户登陆系统才可以访问某些页面，如果用户没有登陆而直接访问就会跳转到登陆界面，用户在跳转的登陆界面中完成登陆后，自动访问跳转到之前访问的地址要实现这样的需求其实很简单：就是使用@login_required标签。在相应的view方法的前面添加@login_required标签，@login_requireddef myview(request):

2016-05-31 17:35:19 3334

原创 Numpy文件存取

Numpy能够读写磁盘上的文本数据或二进制数据。将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。>>> import numpy as npA = np.arange(15).reshape(3,5)>>> Aarray([[ 0, 1, 2, 3, 4],

2016-05-24 22:14:27 47450 1

原创 Numpy基础

Numpy的主要对象是同种元素的多维数组。这是一个所有元素都是一种类型、通过一个正整数元组索引的元素表格（通常元素是数字）。在Numpy中维度叫做轴，轴的个数叫做秩。如下例表示数组A的秩为2（它有两个维度），第一维度的长度为2，第二个维度的长度为3。A=[[1,0,0], [2,1,0]]Numpy的数组类称为ndarray,注意numpy.array和标准python库类array.a

2016-05-24 21:18:47 842

原创 PRML第八章：概率图模型

0 概率&概率图模型世界的真实状态几乎无法通过我们有限的观测完全确定下来，因为大多数关系根本就是非确定性的，至少相对于我们对其的建模能力而言。不确定性的出现源于我们对世界的观察能力有限，对其建模的能力有限，甚至可能源于其固有的不确定性。由于这种关于真实世界状态的普遍且根本的不确定性的存在，需要我们的推理系统考虑不同的可能性。为了得到有意义的结论，我们不仅需要推理什么是可能的（possible），而且

2016-05-24 14:50:02 3046

原创 (1048, "Column 'user_id' cannot be null")

今天用Django写网站中的注册部分的时候遇到这个问题了，记录下如何改正。因为我用到了Django自带的用户系统的profile扩展功能，在注册的时候写入数据库需要注意：user = User.objects.create_user(username, email, password1)user.save()#用户扩展信息# profile = UserProfile()# profil

2016-05-24 00:16:52 22633 6

原创随机模拟与采样方法

随机模拟方法简介随机模拟方法又称为蒙特卡罗方法（Monte Carlo Method）。蒙特卡洛模拟方法的原理是当问题或对象本身具有概率特征时，可以用计算机模拟的方法产生抽样结果，根据抽样计算统计量或者参数的值；随着模拟次数的增多，可以通过对各次统计量或参数的估计值求平均的方法得到稳定结论。由于涉及到时间序列的反复生成，蒙特卡洛模拟法是以高容量和高速度的计算机为前提条件的，因此只是在近些年才得到广泛

2016-05-17 12:22:58 10887

原创概率图模型（一）：贝叶斯网络

这部分文章主要是总结斯坦福大学的概率图模型课程（coursera链接） Graohical Model主要分为两种：贝叶斯网络（Bayesian Network）和马尔科夫随机场（Markov Network) 概率图理论共分为三个部分：概率图模型表示理论、概率图模型推理理论和概率图模型学习理论。贝叶斯网络基础Semantics & Factorization首先用一个学生成绩的例子引出

2016-05-13 17:54:50 7226

原创 Mining Massive Datasets课程笔记（五）Web广告

Online Algorithm通常的算法工作流程是，输入数据全部准备好了，我们能随时访问到所有的数据然后进行处理，从而输出结果，这类算法称之为”离线“算法（Off-line）但是，有时候我们并不能获取全部数据，或者数据太大且有时间要求，需要在当前数据达到时作出应答，如前面课程中的流数据。这类算法称为”在线“算法（Online），在线算法与data Stream Model有些类似但并不完全相同

2015-10-27 00:44:42 2291

原创 C++调用python：无参数，简单helloworld示例

运行环境：VS2015 + python3.4 总体步骤简单来说如下：设置编译环境，其实就是设置Python的头文件和库文件目录以及一个很让人头疼的python3.4_d.lib问题初始化Python解释器： Py_Initialize();调用Python释放资源 Py_Finalize();设置编译环境首先新建一个控制台程序点开程序属性设置如下几个地方，对应的分别是

2015-10-26 01:27:42 3076 4

原创 Mining Massive Datasets课程笔记（五）聚类算法

ClusteringOverview of methods首先我们说几个典型应用，了解为什么需要聚类算法，然后介绍下聚类的集中方法，具体的细节在后面的小节中详细说。但是在实际应用中，聚类问题并没有图中这么简单，往往有大量的数据，且数据时高维的（10 or 10,000dimensions）处理起来比较复杂，而且在高维空间中点间的距离看起来都是近似的。 Some Clustering App

2015-10-25 16:14:26 9360 1

原创 Mining Massive Datasets 课程笔记（四）降维

Dimensionality Reduction 降维若原特征空间是D维的,现希望降至d维的。降维的概念相信大家都已经有了解了，就不介绍了，首先从为什么需要降维理解其必要性，然后讲解具体实现。在这里先简单介绍下矩阵的秩矩阵的秩把矩阵看成线性映射那么秩就是象空间的的维数。通俗一点说，如果把矩阵看成一个个行向量或者列向量，秩就是这些行向量或者列向量的秩，也就是极大无关组中所含向量的个数。

2015-10-23 16:32:20 2457

原创 Mining Massive Datasets课程笔记（四）推荐系统

Recommender System 推荐系统由于网络电商的兴起，商品由实体中有限的个数到互联网时代无数商品可以购买，使得长尾理论被广泛关注。这些都是推荐系统兴起的条件。推荐有多种类型，我们关注的是对个体用户的定制推荐。Formal ModelUtility Matrix 上图是一个Utility Matrix的例子，A-D表示用户，矩阵中是用户对不同电影的评分。推荐系统的目标就是推测出空白处

2015-10-17 15:58:17 2269

原创 Mining Massive Datasets课程笔记（三）

Communities in Social networksCommunity Detection in GraphsThe Affiliation Graph Model（AGM）Plan: 1. 由给定的模型生成网络 2. 对给定的网络找到“best”modelModel of network Goal：Define a model that can generate networks

2015-10-12 00:23:42 4435

原创 Mining Massive Datasets课程笔记（二）

Finding Similar Sets在数据挖掘中有一个很基础的问题就是寻找相似项。比如“查找具有相似爱好的用户“等应用的本质就是查找相似项。这一节介绍的就是如何寻找相似项。采用的相似度衡量概念为“Jaccard 相似度”，具体的意思在后文介绍，其主要思想就是两个集合的交集所占的比例越大则认为两者越相似。对于数据量非常庞大的情况来讲逐一计算相似度肯定是不现实的，联系hash表的（可以快速寻

2015-10-01 01:02:00 1918

原创协方差矩阵

要理解协方差矩阵，我们从以下几个步骤来说方差——>协方差——>协方差矩阵。这样更能理解它的由来和意义，本文主要讲意义和python里的使用，其实协方差矩阵有很强的实际意义和应用实例，有机会再补充。方差在概率论中我们学过期望和方差的概念。期望参见wiki中的数学定义如下：方差一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。方差的算术平方根称为该随机变量的标

2015-09-26 23:17:40 5472

原创 Mining Massive Datasets课程笔记（一）

MapReduce and PageRank一、Distributed File System （分布式文件系统）why do we need mapreduce？传统的数据挖掘方式（single node architecture)在处理海量数据（Like 200TB）时，由于CPU和disk之间的bandwidth限制以及单个CPU的处理能力限制，使得数据处理的时间成本非常高，从而有了多个

2015-09-19 22:10:00 3112

原创 Linear Algebra线性代数相关

特征向量和特征值（eigenvector and eigenvalue）维基百科-特征向量在数学上，特别是线性代数中，对于一个给定的线性变换 A\mathbf A ，它的特征向量（eigenvector，也译固有向量或本征向量） v\mathbf v 经过这个线性变换之后，得到的新向量仍然与原来的 v\mathbf v 保持在同一条直线上（平行），但其长度或方向也许会改变。即 Av=λv\m

2015-09-19 01:03:21 967

原创 Apache本地可以显示外网不可以

背景：之前写的django网站准备好后，部署在windows server上，使用的是Apache+mod_wsgi，域名绑定后在服务器上可以通过服务器ip或者是域名访问到页面，但是外网却不可以。找了好久问题，设置了很多次Apache，找了好多教程都不行，最后发现时防火墙的问题真是要疯了。在服务器上打开“控制面板-系统和安全-Windows 防火墙-允许的程序”添加/允许另一应用，在这里加入浏览文件

2015-07-24 21:22:35 1176

原创 django部署

尽管runserver已经很接近于服务器的形式，但是并不能支持外网访问或很多人同时访问。因此需要将网站部署到服务器上，而django在本地使用runserver运行和部署到服务器在配置文件上是不同的，下面详细介绍下django部署前的准备工作。关闭debug首先为了安全起见，部署到服务器前需要关闭debug模式，即修改settings.py文件中的 DEBUG = False TEMPLATE_

2015-07-13 20:02:12 2091

原创 Bootstrap系列二

栅格系统参考：Bootstrap 官方文档Bootstrap 提供了一套响应式、移动设备优先的流式栅格系统，随着屏幕或视口（viewport）尺寸的增加，系统会自动分为最多12列。前面提到过Bootstrap是移动设备优先的，其实这个栅格系统就是为了适应不同大小的设备，方便组织内容和显示的。栅格系统工作原理“行（row）”必须包含在 .container （固定宽度）或 .container-

2015-05-11 22:28:16 730

原创 Bootstrap系列一

安装和试用bootstrap首先，在bootstrap官网下载预编译好的bootstrap。如果下载源代码，就需要使用Recess来编译LESS文件，生成可重用的CSS文件。我直接下载的bootstrap3的预编译版本。解压后bootstrap3中有三个文件夹：css, js , fontsbootstrap/├── css/│ ├── bootstrap.css│ ├── boo

2015-05-11 15:59:12 967

转载 NLTK中使用Stanford parser

原文链接：http://blog.csdn.net/qq_19670461/article/details/42681551nltk工具包中有一个用于自然语言句法分析的文件夹parse（地址C:\Python27\Lib\site-packages\nltk\parse\stanford.py）。其中stanford.py就是我们要用的stanford parser的源文件，这里面有parser的接

2015-04-22 16:47:05 10325 4

原创 python nltk 基本操作

分词nltk.sent_tokenize(text) #按句子分割 nltk.word_tokenize(sentence) #分词 nltk的分词是句子级别的，所以对于一篇文档首先要将文章按句子进行分割，然后句子进行分词：词性标注nltk.pos_tag(tokens) #对分词后的句子进行词性标注tags = [nltk.pos_tag(tokens) for token

2015-04-22 16:08:45 21929

转载 python基本类型、操作及相互转换

http://blog.csdn.net/pipisorry/article/details/39234557Python中的“真值”在Python和Django模板系统中，以下这些对象相当于布尔值的False空列表([] )空元组(() )空字典({} )空字符串('' )零值(0 )特殊对象No

2015-04-21 15:44:02 3398

转载 stanford parser 使用

原文链接： 1、到斯坦福官方网站http://nlp.stnford.edu/software/lex-parser.shtml下载软件包，解压。2、在eclipse中新建一个java project，把解压得到根目录下的stanford-parser.jar和stanford-parser-2.0.4-models.jar（不同版本文件名可能有差异）两个包导入项目到项目引用包中，然后把解压得到

2015-04-17 10:54:18 1495

原创 django搭建网站记录二

视图视图是Django应用中的一“类”网页。它使用特定的模板，并具有特定的功能。例如，我们搭建的实验室网站上就应该有首页，实验室简介等页面。在Django中，网页的页面和其他内容是由视图负责生成的。这里，视图有了另外一个含义。每个视图都是由一个简单的Python函数表示的（对于基于类的视图，一个视图是用一个方法来表示的）。Django通过检查请求的URL（准确地说，是URL里域名之后的那部分）来选择

2015-04-16 10:23:33 1064

原创 django搭建网站记录一

环境配置我的是python3.4 以及django1.7.5 MySQL python和django就直接官网下载安装啥的，就不说了。安装MySQLwin8.1 MySQL5.6.24 安装了两天各种出错，真是醉了，其中最让我崩溃的是在start service那里停住了，出现如下提示： (我忘了截图了，这里盗用了下网上的图）网上找了好多方法，什么卸载重装，programe

2015-04-15 11:01:08 4186 1

原创 Numpy随记

遇到有关numpy的东西就记下来，方便以后参考：numpy tiletile(A,reps) 重复A reps 次来创建新数组numpy transposehttp://blog.csdn.net/rumswell/article/details/7317831array([0,1,2])是列向量，array([[ 0,1,2 ]] )是行向量

2015-04-13 11:30:46 654

转载 Numpy详解教程

在阅读这个教程之前，你多少需要知道点python。如果你想重新回忆下，请看看Python Tutorial.如果你想要运行教程中的示例，你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipython是一个净强化的交互Python Shell，对探索NumPy的特性非常方便。matplotlib将允许你绘图Scipy在Num

2015-04-13 09:58:24 2011

原创 github 多人协作

github 多人协作最近需要团队合作写一个程序，终于要见识到git厉害的多人协作了，记录下过程，方便回顾。首先在分支策略上有一个很好的文档可以看，由Vincent Driessen提出，非常简洁明了，各个分支的功能明确。 git主分支的名字默认叫master，它是自动创建的，并且默认将本地与远程的master分支统一。主分支主要用来发布重要版本，日常开发应该在另一条分支上进行，我们把开发用的

2015-04-10 16:48:47 7637 1

原创 django1.7静态文件配置（css/js/img)

环境：python2.7.9 django1.7 只是在开发环境下适用，生产环境下还需要改配置，等我遇到了再说吧-_-|||django中通过URL.py来提供每个URL对应的django函数来显示页面，templates目录中的html页面是不能直接写图片或css的路径的，而是用URLs提供的url来对应到图片或css的目录。我想要在HTML中使用预先写好的css文件，所以

2015-03-17 16:55:56 2666 1

转载 SVD奇异值分解

2015-01-23 10:37:56 971

原创 Machine Learning 课程笔记6：机器学习应用指导

1、决定下一步做什么

2014-11-09 14:23:52 1288 1

基于温度传感器的显示测温软件

空空如也