自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

转载 如何申请专利

手把手教你写专利申请书·如何申请专利摘要 小前言 (一)申请前的准备工作 1、申请前查询 2、其他方面的考虑 3、申请文件准备 (二)填写专利申请系列文档 1、实际操作步骤 2、具体操作 3、经验分享、注意事项 (三)关于费用 (四)其他的话 参考资源 提示 常见问题的问与答摘要:如何写好专利申请?由于很多专利申请人都是第一

2016-01-20 20:21:29 1234

转载 HBase和HBase shell

HBase基本概念和hbase shell常用命令用法简介  HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBa

2015-11-26 11:41:23 906

转载 Thrift安装配置及使用python通过thrift连接HBase测试

准备工作及测试环境:1)Hadoop集群【已完成】 版本:hadoop-0.20.2 安装路径:/usr/local/hadoop-0.20.2 NameNode:192.168.85.128 h1 DataNode:192.168.85.130 h2 192.168.85.131 h32)HBase环境 版本:0.9.5 安装路径:/usr/local/hbase

2015-11-19 17:48:09 4079

转载 python连接Hbase

pyspark Python 连接 HBase thrift0.引言HBase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,python通过thrift访问HBase。1.thrift安装thrift官网 下载thrift-0.9.3.tar.gz 下载后解压到当前文件夹tar xvf thrif

2015-11-19 15:06:17 2270

原创 准备数据:归一化数值

归一化数值在处理这种不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者-1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值: newValue=(oldValue-min)/(max-min) 其中min和max分别是数据集中的最小特征值和最大特征值。一般的三种归一化方法: 1、线性函数转换,表达式如下:    y=(x

2015-11-17 11:28:15 3900

原创 sklearn feature extraction

文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:标记(tokenizing)文本以及为每一个可能的标记(toke

2015-11-03 14:40:20 1185

转载 生成libsvm数据格式

生成libSVM的数据格式及使用方法总结首先介绍一下 libSVM的数据格式 Label 1:value 2:value ….Label:是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。Value:就是要训练的数据,从分类的角度来说就是特征值,数据之间用空格隔开比如: -15 1:0.708 2:1

2015-10-22 16:15:27 600

原创 WEKA

weka学习一:简介和回归参考网址: http://www.ibm.com/developerworks/cn/opensource/os-weka1/weka学习二:数据预处理数据预处理是所有数据挖掘算法的前提基础。拿到一个数据源,不太可能直接用于数据挖掘算法。为了既不破坏业务数据的数据结构,又能为数据挖掘算法所使用,就需要进行数据预处理的过程,将数据源进行一定的处理,得到数据挖掘算法的输入数据

2015-10-21 21:03:02 485

原创 数据预处理

数据预处理数据挖掘之数据预处理数据预处理目的:预处理数据,提高数据质量,从而提高挖掘结果的质量数据预处理的方 提问者: wild_fire 发布时间:2014-03-20 浏览:6 回复:0 悬赏:0.0希赛币 数据挖掘之数据预处理    数据预处理   目的:预处理数据,提高数据质量,从而提高挖掘结果的质量   数据预处理的方法包括:数据清理、数据集成和

2015-10-20 11:07:32 1280

转载 Python开始机器学习(文本特征抽取与向量化)

文本特征抽取与向量化假设我们刚看完沈腾主演的《夏洛特烦恼》,设想如何让机器来自动分析各位观众对电影的评价到底是“赞”(positive)还是“踩”(negative)呢?这类问题就属于情感分析问题。这类问题处理的第一步,就是将文本转换为特征。因此,这章我们只学习第一步,如何从文本中抽取特征,并将其向量化。由于中文的处理涉及到分词问题,本文用一个简单的例子来说明如何使用Python的机器学习库,对英文

2015-10-19 21:42:23 3085

转载 python __all__

python里all 属性分别于模块和包之中的用法一、 在模块(*.py)中使用意为导出all列表里的类、函数、变量等成员, 否则将导出modualA中所有不以下划线开头(私有)的成员, 在模块中使用all属性可避免在相互引用时的命名冲突modualA.py # all=[“fun1”,”class1”]…end file modualA.py使用:from modualA import

2015-10-16 10:00:55 350

原创 sklearn preprocessing

sklearn preprocessing代码代码来自Anaconda软件里sklearn模块init.py"""The :mod:`sklearn.preprocessing` module includes scaling, centering,normalization, binarization and imputation methods."""from .data import B

2015-10-15 10:31:19 14267

转载 scikit-learn

scikit-learn preprocessing数据预处理 - 归一化/标准化/正则化一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessin

2015-10-12 10:54:41 666

原创 python实现去除文本中的中文符号和英文符号

python实现去除文本中的中文符号和英文符号import reline = line.decode("utf8") string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。??、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),line)

2015-09-02 21:44:27 27349 4

转载 STLport

#STLport安装指南 分类: C/C++ 2012-10-12 10:20 1729人阅读 评论(0) 收藏 举报 compilerlibrary编译器iostreamexceptionmakefile STLport安装指南 STLport-4.6 是完全兼容ANSI C++标准的类库。This distribution contains STLport sources only, n

2015-08-17 13:10:17 694

原创 nltk

python的nltk中文使用和学习资料汇总帮你入门提高nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.nltk的安装 资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/0

2015-08-13 10:18:12 911 1

原创 nltk对中文进行处理和分析

如何用 Python 中的 NLTK 对中文进行分析和处理?最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(perplexity)等(不过这些概念我其实也还理解不深…只是nltk 提供了相应方法)。我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。 中文和英文主

2015-08-13 10:06:57 7163

转载 最大熵模型

最大熵模型介绍及实现最大熵NLP自然语言处理Overview统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个随机过程的状态。建模的目的,就是将这些不完整的知识转化成简洁但准确的模型。我们可以用这个模型去预测随机过程未来的行为。在统计建模这个领域,指数模型被证明是非常好用的。因此,

2015-07-30 10:53:01 540

原创 朴素贝叶斯

基于概率论的分类方法:朴素贝叶斯最近在学朴素贝叶斯,主要是看统计学习方法与机器学习实战这两本书。 在学习朴素贝叶斯之前,读者需要先复习一下概率论里的相关知识。朴素贝叶斯的学习与分类1、基本方法 2、后验概率最大化的含义朴素贝叶斯法的参数估计1、极大似然估计 2、学习与分类算法 3、贝叶斯估计具体内容请读者阅读《统计学习方法》在《机器学习实战》一书中,具体讲解了朴素贝叶斯分类的案例与具体实现代

2015-07-26 22:06:29 463

原创 python scrapy

scrapy入门教程一直想用python进行爬虫,无意间接触了scrapy。scrapy简介Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider

2015-07-23 10:08:42 541

转载 中文情感分析

利用python snownlp组件进行中文情感分析SnowNLP是一个python写的类库,可以方便的处理中文文本内容。可以进行转换成拼音,繁体转简体,提取文本关键词(Textrank算法),提取文本摘要(Textrank算法),在这些方面很有用。 官方网站:http://t.cn/8kf1c3pSnowNLP: Simplified Chinese Text ProcessingSnowNLP

2015-07-22 17:13:40 2166

转载 自然语言处理的中文分词方法

中文分词方法平台:win7,python,vs20101、CRF++CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。 一、工具包的下载: 其中有两种,一种是Linux下(带源码)的,一种是win32的,下载 http://download.csdn.net/source/1425683将这两种版本打成一个包了。 二、安装: a) Windows版的

2015-07-17 22:05:27 4198

原创 easy_install安装第三方包出现的问题

easy_install 报错:Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat有时候,在Windows7x64下使用easy_install安装包的时候提示报错:Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat)环境:windows7

2015-07-17 15:43:57 754

原创 windows下用swig实现python调用C\C++的方法

windows下用swig实现python调用C\C++的方法本文技术平台:win7,vs2010,python2.7(64位)1.下载swig在[www.swig.org]官网上下载相应的安装包,下载后解压安装包到任意路径,注意:路径中最好不要带空格。这样swig便可以使用2.c++源文件和swig接口文件,文件如下:example.h/* example.h */#ifndef EXAMPLE

2015-07-16 10:56:31 2040

CRF++ windows版本

crf++可用于进行序列标注,中文分词,中文文本分类等功能

2015-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除