普通网友-CSDN博客

转载径向基函数（RBF）神经网络

径向基函数（RBF）神经网络RBF网络能够逼近任意的非线性函数，可以处理系统内的难以解析的规律性，具有良好的泛化能力，并有很快的学习收敛速度，已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。简单说明一下为什么RBF网络学习收敛得比较快。当网络的一个或多个可调参数（权值或阈值）对任何一个输出都有影响时，这样的网络称

2017-10-11 17:38:14 1082

转载图像变形

前言演算法程式主要的資料結構程式流程參數改變成品效果程式使用說明檔案下載前言 Morphing一種影像處理技術，可以產生從一張影像慢慢轉變回另外一張影像中間的過程。而我們這次主要是閱讀及實作Feature-Based Image Metamorphosis這一篇paper.-Feature-Based Image Metamorphosis , SIGGRAPH 1992

2017-10-11 12:00:31 908

转载 [+] 词汇相似度计算

1. 任务和环境介绍任务：实现5种词汇相似度计算方法。数据：wordsim353评价方法：Spearman’s rank correlation coefficient环境：Ubuntu 服务器（4 Intel(R) Xeon(R) CPU E5-2609 v3 @1.90GHz），Anacanda2.4（64-bit），python2.7基本方法

2017-10-08 20:18:06 1594

转载 word2vec词向量训练及中文文本相似度计算

本文是讲述如何使用word2vec的基础教程，文章比较基础，希望对你有所帮助！官网C语言下载地址：http://word2vec.googlecode.com/svn/trunk/官网Python下载地址：http://radimrehurek.com/gensim/models/word2vec.html1.简单介绍参考：《Word2vec的核心架构及其应用 · 熊富

2017-10-08 20:14:23 2603

转载 jpg/png格式图片转eps格式的方法总结

用latex写论文的筒子应该遇到这样的问题：latex在一般情况下，只支持eps格式的图像文件，而我们一般得到的文件是jpg或 png格式的（使用origin绘制的曲线可以直接导出eps格式）。那么就可能需要将jpg/png转换成eps格式，这里介绍几种方法。内容目录 [隐藏]方法一：软件另存为方法二：latex自带命令bmeps1. 从Winedt中打开命令行窗口2.

2017-09-11 20:02:47 695

转载 Python–读写CSV文档

Python–读写CSV文档CSV是英文Comma Separate Values（逗号分隔值）的缩写，顾名思义，文档的内容是由 “,” 分隔的一列列的数据构成的。CSV文档是一种编辑方便，可视化效果极佳的数据存储方式。而Python中有着非常强大的库可以处理这种文档，所以，如果你经常用Python处理数据的话，CSV文档当然是一种简单快捷的轻量级选择。下面我将以一个数据处理的例子入手，展现C

2017-09-11 14:22:11 268

原创举例说明Python的CSV模块

举几个例子来介绍一下，Python 的 CSV模块的使用方法，包括，reader, writer,DictReader, DictWriter.register_dialect一直非常喜欢python的csv模块，简单易用，经常在项目中使用，现在举几个例子说明一下。reader(csvfile[, dialect='excel'][, fmtparam])参数表:csvfi

2017-09-11 14:15:24 190

原创 python写入csv文件的几种方法总结

最常用的一种方法，利用pandas包import pandas as pd#任意的多组列表a = [1,2,3]b = [4,5,6] #字典中的key值即为csv中列名dataframe = pd.DataFrame({'a_name':a,'b_name':b})#将DataFrame存储为csv,index表示是否显示行名，default=Truedatafra

2017-09-11 10:21:21 422

原创 python list中append()与extend()用法

列表是以类的形式实现的。“创建”列表实际上是将一个类实例化。因此，列表有多种方法可以操作。1.列表可包含任何数据类型的元素，单个列表中的元素无须全为同一类型。2. append() 方法向列表的尾部添加一个新的元素。只接受一个参数。3. extend()方法只接受一个列表作为参数，并将该参数的每个元素都添加到原有的列表中。*****************************

2017-09-11 09:55:11 241

原创使用Python对Csv文件操作

使用Python对Csv文件操作csv是Comma-Separated Values的缩写，是用文本文件形式储存的表格数据，比如如下的表格：就可以存储为csv文件，文件内容是：No.,Name,Age,Score1,mayi,18,992,jack,21,893,tom,25,954,rain,19,80假设上述csv文件保存为"test.csv"1.读文件

2017-09-11 09:28:51 363

原创怎么查看python是多少位

ubantu:需要获取当前安装的python是32位还是64位，由于初学，上网找了一些资料也不奏效，后来咨询前辈才知道的，如下$ python3.5Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 26 2016, 10:49:35) [GCC 4.2.1 (Apple Inc. build 5577)] on darwinTyp

2017-09-08 15:51:01 2638

转载 Python中文文本聚类

查看百度搜索中文文本聚类我失望的发现，网上竟然没有一个完整的关于Python实现的中文文本聚类（乃至搜索关键词python 中文文本聚类也是如此），网上大部分是关于文本聚类的Kmeans聚类的原理，Java实现，R语言实现，甚至都有一个C++的实现。正好我写的一些文章，我没能很好的分类，我想能不能通过聚类的方法将一些相似的文章进行聚类，然后我再看每个聚类大概的主题是什么，给每个聚类一个

2017-09-07 09:42:22 654

转载用Python开始机器学习（2：决策树分类算法）

1、决策树算法决策树用树形结构对样本的属性进行分类，是最直观的分类算法，而且也可以用于回归。不过对于一些特殊的逻辑分类会有困难。典型的如异或（XOR）逻辑，决策树并不擅长解决此类问题。决策树的构建不是唯一的，遗憾的是最优决策树的构建属于NP问题。因此如何构建一棵好的决策树是研究的重点。J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建，这就是鼎鼎大名的ID3算法

2017-09-06 15:34:22 247

转载用Python开始机器学习（3：数据拟合与广义线性回归）

机器学习中的预测问题通常分为2类：回归与分类。简单的说回归就是预测数值，而分类是给数据打上标签归类。本文讲述如何用Python进行基本的数据拟合，以及如何对拟合结果的误差进行分析。本例中使用一个2次函数加上随机的扰动来生成500个点，然后尝试用1、2、100次方的多项式对该数据进行拟合。拟合的目的是使得根据训练数据能够拟合出一个多项式函数，这个函数能够很好的拟合现有数据，并

2017-09-06 15:31:37 386

转载用Python开始机器学习（4：KNN分类算法）

1、KNN分类算法KNN分类算法（K-Nearest-Neighbors Classification），又叫K近邻算法，是一个概念极其简单，而分类效果又很优秀的分类算法。他的核心思想就是，要确定测试样本属于哪一类，就寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后看这K个样本大部分属于哪一类，那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票决定。这

2017-09-06 15:30:28 248

转载用Python开始机器学习（6：朴素贝叶斯分类器）

朴素贝叶斯分类器是一个以贝叶斯定理为基础，广泛应用于情感分类领域的优美分类器。本文我们尝试使用该分类器来解决上一篇文章中影评态度分类。1、贝叶斯定理假设对于某个数据集，随机变量C表示样本为C类的概率，F1表示测试样本某特征出现的概率，套用基本贝叶斯公式，则如下所示：上式表示对于某个样本，特征F1出现时，该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢？举例来说，

2017-09-06 15:29:03 309

转载用Python开始机器学习（7：逻辑回归分类）

在本系列文章中提到过用Python开始机器学习（3：数据拟合与广义线性回归）中提到过回归算法来进行数值预测。逻辑回归算法本质还是回归，只是其引入了逻辑函数来帮助其分类。实践发现，逻辑回归在文本分类领域表现的也很优秀。现在让我们来一探究竟。1、逻辑函数假设数据集有n个独立的特征，x1到xn为样本的n个特征。常规的回归算法的目标是拟合出一个多项式函数，使得预测值与真实值的误差最小：

2017-09-06 15:28:06 226

转载用Python开始机器学习（8：SVM支持向量机）

SVM支持向量机是建立于统计学习理论上的一种分类算法，适合与处理具备高维特征的数据集。SVM算法的数学原理相对比较复杂，好在由于SVM算法的研究与应用如此火爆，CSDN博客里也有大量的好文章对此进行分析，下面给出几个本人认为讲解的相当不错的：支持向量机通俗导论（理解SVM的3层境界）：http://blog.csdn.net/v_july_v/article/details/7624837

2017-09-06 15:26:34 243

转载用Python开始机器学习（9：推荐算法之推荐矩阵）

每个人都会有这样的经历：当你在电商网站购物时，你会看到天猫给你弹出的“和你买了同样物品的人还买了XXX”的信息；当你在SNS社交网站闲逛时，也会看到弹出的“你可能认识XXX“的信息；你在微博添加关注人时，也会看到“你可能对XXX也感兴趣”；等等。所有这一切，都是背后的推荐算法运作的结果。最经典的关联规则算法是大名鼎鼎的Apriori算法，源自一个超市购物篮的故事：啤酒总是和尿布一起被购买。有兴

2017-09-06 15:22:18 339

转载用Python开始机器学习（10：聚类算法之K均值）

我们之前接触的所有机器学习算法都有一个共同特点，那就是分类器会接受2个向量：一个是训练样本的特征向量X，一个是样本实际所属的类型向量Y。由于训练数据必须指定其真实分类结果，因此这种机器学习统称为有监督学习。然而有时候，我们只有训练样本的特征，而对其类型一无所知。这种情况，我们只能让算法尝试在训练数据中寻找其内部的结构，试图将其类别挖掘出来。这种方式叫做无监督学习。由于这种方式通常是将样本中相似

2017-09-06 15:20:09 344

转载用Python开始机器学习（5：文本特征抽取与向量化）

假设我们刚看完诺兰的大片《星际穿越》，设想如何让机器来自动分析各位观众对电影的评价到底是“赞”（positive）还是“踩”（negative）呢？这类问题就属于情感分析问题。这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。由于中文的处理涉及到分词问题，本文用一个简单的例子来说明如何使用Python的机器学习库，对英文进行特征

2017-09-06 15:18:53 236

原创 K-means聚类算法

K-means聚类算法算法优缺点：优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢使用数据类型：数值型数据算法思想k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的，相近的就会放到同一个类别中去。1.首先我们需要选择一个k值，也就是我们希望把数据分成多少类，这里k值的选择对结果的影响很大，Ng的课说的选择方法有两种一

2017-09-06 10:54:39 259

转载 [python] 基于k-means和tfidf的文本聚类代码简单实现

俗话说“外行看热闹，内行看门道“，作为一个机器学习的门外汉，刚研究python机器学习scikit-learn两周时间，虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单，但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处，还请你微微一笑，原谅之；当然也非常欢迎你提出建议或指正~基本步骤包括： 1.使用python+selenium分析d

2017-09-05 17:04:41 623

转载用Python实现文档聚类

在本教程中，我会利用 Python 来说明怎样聚类一系列的文档。我所演示的实例会识别出 top 100 电影的（来自 IMDB 列表）剧情简介的隐藏结构。关于这个例子的详细讨论在初始版本里。本教程包括：对所有剧情简介分词（tokenizing）和词干化（stemming）利用 tf-idf 将语料库转换为向量空间（vector space）计算每个文档间的余弦距离（cosine dis

2017-09-05 16:50:18 2697

转载基于向量空间模型的文本聚类算法

1 文本聚类研究现状Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示， 70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据，如何从中获取特定内容的信息和知

2017-09-05 16:26:51 781

转载基于K－Means的文本聚类

何为聚类 “聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset）,这样让在同一个子集中的成员对象都有相似的一些属性。”

2017-09-05 16:16:29 1947

转载 MobileNet教程：用TensorFlow搭建在手机上运行的图像分类器

作为卷积神经网络中的新成员，MobileNet有着很多令人惊艳的表现，今天我们就用数据集训练一个试试。MobileNet具有以下酷炫的特点：1. 它们非常非常小2. 它们非常非常快3. 它们非常非常准4. 它们很容易调试这些特点是非常重要的。目前，很多移动端上的深度学习任务都是在云端完成的。当你想要让手机识别一张图片，程序会先把这张图片通过网

2017-09-05 10:12:17 663 1

转载如何用Python实现任一个英文的纯文本文件，统计其中的单词出现的个数？

import refile_name = 'test.txt'lines_count = 0words_count = 0chars_count = 0words_dict = {}lines_list = []with open(file_name, 'r') as f: for line in f: lines_count = lines_co

2017-09-04 09:52:21 980 1

原创 TOMcat环境变量配置【2】

Tomacat的下载去Tomcat官网下载，我使用的是apache-tomcat-7.0.78的版本。安装下载完成之后，我们解压缩到相应的目录。这里我解压缩到d盘下面 1、然后去配置系统的环境变量，新建系统变量： catalina_home

2017-08-30 20:10:46 180

原创【MyEclipse安装配置教程】三、配置SVN

2017-08-30 17:32:04 157

原创【MyEclipse安装配置教程】五、安装MySQL和Navicat可视化数据库

2017-08-30 17:24:24 279

原创【MyEclipse安装配置教程】四、安装Tomcat

一、下载tomcat将tomcat文件夹放在myeclipse的工作空间目录下。二、配置Server打开myeclipse，按下图所示配置tomcat。配置完成。三、新建一个Web项目，检查是否配置成功按图操作。添加tomcat。

2017-08-30 17:23:17 262

原创【MyEclipse安装配置教程】一、安装JDK并配置环境变量

yEclipse的安装配置分为以下几步：一、安装JDK并配置环境变量，也就是本文章。二、用注册码破解MyEclipse：【MyEclipse安装配置教程】二、用注册机代码破解MyEclipse - bing_bing_a的博客 - 博客频道 - CSDN.NEThttp://blog.csdn.net/bing_bing_a/article/details/53130341

2017-08-30 17:19:54 381

原创数据清洗的一些梳理

数据清洗数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗，相关的书籍也不少。我将在这篇文章中，尝试非常浅层次的梳理一下数据清洗过程，供各位参考。数据清洗路径预处理阶段阶段1:去除/补全有缺失的数据阶段2:去除/修改格式和内容有错误的数据阶段

2017-08-02 21:20:23 700

转载 CSV文件格式解析器的实现：从字符串Split到FSM

本文分为5小节，基本上就是我刚接触CSV文件到思考、实践做一个CSV解析器的过程的还原。希望我的思路也能带领你一步步从浅到深认识CSV文件格式。　　1.简单的CSV解析器实现。　　2.简单实现的CSV解析器的问题　　3. CSV格式的定义　　4.用FSM（有限状态机）来做CSV格式解析。　　5.为什么使用CSV格式　　1.简单的CSV解析器实现。　　最

2017-07-31 16:09:38 599

转载无约束最优化问题

估计有些读者看到这个题目的时候会觉得很数学，和自然语言处理没什么关系，不过如果你听说过最大熵模型、条件随机场，并且知道它们在自然语言处理中被广泛应用，甚至你明白其核心的参数训练算法中有一种叫LBFGS，那么本文就是对这类用于解无约束优化算法的Quasi-Newton Method的初步介绍。　　事实上，这个系列的作者是我的师兄jianzhu，他在中文分词、语言模型方面的研究很深入，如果大家

2017-07-25 16:29:37 1766

转载使用 GitHub, Jekyll 打造自己的免费独立博客

GitHub是一个代码托管网站，现在很多开源项目都放在GitHub上。利用GitHub，可以让全球各地的程序员们一起协作开发。GitHub 提供了一种功能，叫 GitHub Pages, 利用这个功能，我们可以为项目建立网站，当然，这也意味着我们可以通过 GitHub Pages 建立自己的网站。Jekyll是一个简单的，针对博客设计的静态网站生成器。使用 GitHub 和 Jek

2017-07-25 11:12:58 238

转载图像特征提取三大法宝：HOG特征，LBP特征，Haar特征

（一）HOG特征1、HOG特征：方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Da

2017-07-24 16:13:10 837

转载 [特征检测]HOG特征算法

简介 HOG（Histogram of Oriented Gridients的简写）特征检测算法，最早是由法国研究员Dalal等在CVPR-2005上提出来的，一种解决人体目标检测的图像描述子，是一种用于表征图像局部梯度方向和梯度强度分布特性的描述符。其主要思想是：在边缘具体位置未知的情况下，边缘方向的分布也可以很好的表示行人目标的外形轮廓。 Dalal等提

2017-07-24 16:09:01 740

原创基于级联形状回归框架的人脸特征点对齐方法总结

最近看了一篇中科院计算机技术研究所大神张杰写的一篇博文，想把其中的知识点总结起来方便自己查阅的同时也能方便大家参考。基于级联姿态回归的方法是近几年人脸特征点对齐研究中比较有效的方法。始于2010年的一篇CVPR文章，由加州理工学院从事博士后研究的Piotr Dollar 首次提出级联形状回归模型 CascadePose Regression(CPR) 来预测物体的形状。对于人

2017-07-24 15:23:06 778

空空如也

空空如也