自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

如锡如璧

记录自己,帮助别人

  • 博客(33)
  • 资源 (1)
  • 收藏
  • 关注

原创 Make your model a web service (using Microsoft Azure machine learning studio)

Make your model a web service (using Microsoft Azure machine learning studio)1. construct an experiment using the studio.2. Set up the web service.Run this experiment firstly and then click the bu...

2019-01-21 16:18:07 289

原创 Visualizing Data via R (box-plot,histogram,scatter)

Visualizing Data via R (box-plot,histogram,violin,scatter)load datalibrary("AzureML")ws = workspace()auto.price = download.datasets(ws, "Automobile price data (Raw)")## Coerce some character col...

2019-01-16 17:15:40 338

原创 Hypothesis with R and Understanding of P-value and confidence-interval

Hypothesis with R and Understanding of P-value and confidence-intervalHypothesis with R数据集说明数据可视化使用t-test(small samples)进行双边假设检验Hypothesis with R数据集说明基于Galton数据集,检验儿子和女儿与母亲身高的相关性library("AzureML")...

2019-01-16 12:22:54 559

原创 Statistic summary in R

summary the statistics of data visualize the statistics (boxplot and histogram) view the data library("AzureML")ws <- workspace()dat <- download.datasets(ws, "Automobile price da...

2019-01-02 12:17:59 641

原创 基于doc2vec的中文文本聚类及去重

Understand doc2vecData introductionTrain a modelTest the modelCluster all the lyricsFilter out the duplicates1. Understand doc2vec [1]doc2vec是基于word2vec演化而来,其本质是要学出文档的一个表示,模型由谷歌科学家Quoc Le 和 T...

2018-12-24 15:55:41 6673 2

原创 R programming for feature selection and regression

data introductionSelect packagesSplit datasetfeature selectiontune parametersprediciton1. data introduction我的数据包含一千五百多条样例,92个属性,待预测项目有性别这样的分类问题,也有年龄这样的回归问题。2. select packageslibrary(ggplot2...

2018-12-24 11:04:50 700 2

原创 R语言创作词云 word cloud generation

目录1. select packages2. clean text3. generate word cloud4. 一个小技巧 a little trick1. Select packageslibrary("tm") #text mininglibrary("SnowballC") #word stemming if necessarylibrary(&am

2018-12-24 10:15:34 548

原创 计算perplexity确定LDA到底聚出多少个主题合适

-perplexity介绍-LDA确定主题的数目perplexity在对文本的主题特征进行研究时,我们往往要指定LDA生成的主题的数目,而一般的解决方法是使用perplexity来计算,原理如下(概率分布perplexity):其中,M是测试语料库的大小,Nd是第d篇文本大小(即单词个数) 其中z是主题,w是文档,gamma是训练集学出来的文本-主题分布 所以p...

2018-05-06 20:34:36 24809 37

原创 python进行时间数据处理

用页面解析的方式从twitter爬下来的帖子时间有时候是中文的,如下: 由于时间处理的细节很多,所以在这里做一个小结,首先要明白处理的目标数据应该是24小时制,并且形式如下format = "%Y-%m-%d %H:%M:%S"也就是要将字符串转换为datetime.datetime类型 代码如下:from datetime import datetimeformat =...

2018-05-06 19:38:34 3912

原创 根据地理位置和关键词爬取twitter数据并生成词云

根据地理位置和关键词爬取twitter数据存入MongoDB并生成词云转载注明出处tweepy获取数据生成词云tweepy获取数据1. 建立model model.pyclass twitter_post(Document): _id = ObjectIdField(primary_key = True) screen_name = St...

2018-05-01 18:55:13 6224 1

原创 Elasticsearch使用总结

Elasticsearch从索引到查询创建索引分词查询高亮分页排序创建索引第一步,创建索引`if self.es.indices.exists(index='test-index') is not True: self.es.indices.create(index='test-index',body=self._index_mappings)

2017-04-24 09:41:07 653

原创 数据中心那么大,怎么建的?

迪安智酷 | 研究出品 研究结论: 1. 数据中心规模与公司线上业务量呈现正相关; 2. 数据中心基础设施建设,整体追求高质量、生态友好,其中花旗集团和ACT均拿到LEED白金级认证; 3. 数据中心基础设施交付方式呈现多样化,但是总体技术方向偏向于高架交付,同时地理等自然因素也成为交付方式选择需要考虑的关键点; 4. 大多数数据中心建造用时普遍偏长,侧面反映施工难度和质量要求,多

2015-09-29 22:30:30 945

原创 数据中心那么大,怎么建的?

迪安智酷| 研究出品研究结论:数据中心规模与公司线上业务量呈现正相关;数据中心基础设施建设,整体追求高质量、生态友好,其中花旗集团和ACT均拿到LEED白金级认证;数据中心基础设施交付方式呈现多样化,但是总体技术方向偏向于高架交付,同时地理等自然因素也成为交付方式选择需要考虑的关键点;大多数数据中心建造用时普遍偏长,侧面反映施工难

2015-09-29 22:25:31 916

转载 Python Version 2.7 required which was not found in the registry 问题解决

今天在安装numpy时,出现了Python Version 2.7 required which was not found in the registry错误,解决方案如下。 Python的一些第三方库只到注册表的HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\Python\PythonCore\2.7\InstallPath路径下寻找Python

2015-08-15 09:52:48 1646

原创 大数据在火电厂中的技术

经过一周时间的学习,现在将我对于这个领域技术和问题的一些认识进行总结:概述:智能电厂的总体架构:右边是对智能电厂的整体体系结构的一个展示,左边则是我们需要做的大数据方向的工作,其实智能电厂就是将大数据的一系列技术应用到传统电厂,当然其中也涉及了物联网技术以及网络通信技术等。从查阅资料的实际情况来看,这确实是一个比较新的领域,国外在scopus中的论文以及IEEE数据库的会议文档谈论最多的是面向智能

2015-07-02 16:07:57 5001

原创 浅谈大数据与智能电厂

浅谈大数据与智能电厂 ——2015\6\12 前段时间,IBM刚刚宣布了一项新技术HyRef,用于能源电力行业,该技术结合大数据分析和天气建模,旨在提高可再生能源的可靠性;钢铁集团济钢公司也后脚使用IBM的Con

2015-06-12 22:56:45 6423

原创 Prim算法与Dijkstra的异同

prim算法和Dijkstra算法都是图论或者离散数学里面的典型算法,由于两者在实现策略上有很多相似之处,现做以比较: 同: (1)、两者都属于贪心算法的应用; (2)、都使用了堆结构; (3)、都有松弛操作; 异: (1)、给一堆村子之间修路,保证花费最小,用prim算法; 从一个村子到其他所有村子修路,并且希望花费最小,用Dijkstra。 (2)、prim适用于无相连通图;Di

2015-05-19 21:48:30 2236

原创 Lucene学习之高亮显示

在搜索引擎中我们经常会看到这样的情景: 红色部分我们称之为高亮显示,lucene提供了HighLighter模块来实现这一功能。 高亮显示模块通常包含两个独立的功能,首先是动态拆分,就是从匹配搜索的大量文本中选取一小部分句子。第二个内容就是高亮显示。 我们先来看下高亮显示的原理: 一、TokenSources:IndexReader reader = DirectoryReader.op

2015-05-19 19:26:17 3814

原创 Lucene学习之拼写检查

在搜索引擎中,我们往往会遇见下面的情景 这其实就是拼写检查的应用,lucene的suggest模块就是为此而设的。 首先需要的是一个有效的拼写检查的源词典。private static String dicpath = "G:\\downloads\\LJParser_release\\dictionary.dic";//初始化字典目录 //最后一个fullMerge参数表示拼写检查索引是

2015-05-19 18:54:54 924

原创 Lucene学习之Facet

Facet简单来说就是点击某个品牌或者网络,获取更细分的结果。也就是站在不同的方面去搜索会得到不同的结果,其主要API支持,我们通过一段代码来看import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.lucene.analysis.core.WhitespaceA

2015-05-08 15:32:04 1102

原创 lucene学习之创建自定义排序

Lucene提供了一套强大的API来帮助我们实现自定义排序,本节我们使用一个距离搜索的例子来阐述: 其实核心是换一个comparator就成,而这个排序器用在哪里呢,如下所示:package custom;import java.io.IOException;import org.apache.lucene.search.FieldComparator;import org.a

2015-05-06 18:25:05 1208

原创 lucene学习之针对多索引的搜索

在实际应用中,很多应用程序保持多个分离的Lucene索引,但有需要在搜索过程中能够将结果合并输出,比如新闻网站每天都会建立不同索引,但是搜索一个月的新闻时就需要合并输出结果。这时可以使用如下方式:mreader = new MultiReader(readera,readern); searcher = new IndexSearcher(mreader);//4.0以后的Multi

2015-05-04 14:51:10 596

原创 从01背包学习贪心算法和动态规划

从01背包学习贪心算法和动态规划: 算法的思路其实很大程度上都是相通的,比如在提升算法运行时间的不断探索中,我们用分治的思想来将一个大问题分解为很多小问题进行求解,并且这些子问题与原问题的结构是一样的,比如归并排序,比如第i层是排四个数,第i+1层则是排八个数,问题的规模发生变化但结构不变。而动态规划则是沿用的分治的思想,但是比分治多两个必要条件:重叠子问题和最优子结构。前者要求问题空间要足够小,

2015-05-01 21:31:36 4055

原创 lucene学习之中文文本分析

在lucenne内部,所有的字符都是以标准的UTF-8编码存储的。lucene的standardAnalyzer分析器将一定范围内的Unicode编码识别为CJK(亚洲语种)字符,并将其拆分为独立单元。下面用不同的分析器来分析同一中文字符串:import java.awt.*;import java.io.*;import org.apache.lucene.analysis.*;i

2015-04-30 20:31:07 532

原创 lucene学习之分析过程(自定义近义词分析器)

影响分析器选择的一个原因是语种另一个原因是被分析的文本所属的域import java.io.*;public interface SynonymEngine { String[] getSynonyms(String s) throws IOException;}import java.util.*;public class TestSynonymEngine impl

2015-04-29 22:13:11 962

原创 lucene学习之多样化查询

lucend的多样化查询主要是通过一些内置的QUERY类型来实现:TermQuery:进行项搜索  Term t = new Term("filename","4167"); Query query = new TermQuery(t); TopDocs docs = searcher.search(query, 100); System.out.println("一共搜

2015-04-29 22:02:06 504

原创 lucene的近实时查询

近实时:2.9以前的版本,如果索引更新,那么搜索必须在writer的commit提交之后才能重新打开,近实时可以使得快速搜索索引的变更内容,而不必首先关闭writer或向writer提交import java.nio.file.Paths;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apac

2015-04-29 21:41:10 436

原创 一台电脑连入三个节点的集群ssh配置

       Linux与windows之间建立ssh互信ssh是应用层的协议,建立ssh互信可以实现用PC远程直接管理访问集群节点,查看集群状态。下面就说一下建立过程(感谢晓东学长的全称指点):全程保证两台电脑在一个局域网(最好连到互联网)Windows服务器端:(1)从官网站点下载免费的ssh服务器freeSSHd:http://

2015-04-22 21:23:10 1633

原创 三台节点配置hadoop

Ssh互信建立完成以后,接下来咱们开始搭建hadoop从ApacheDownload Mirrors下载haoop-2.6.0.从JavaSE - Downloads | Oracle Technology Network | Oracle下载jdk,我下载的是1.8.0_25x86和1.8.0_25x64因为我的三台主机两台ubuntu是32位的,另一

2015-04-22 21:20:56 649

原创 三台节点ssh互信建立

本博客并不属于技术博,主要记录楼主这个生手第一次实现ssh互联搭建hadoop的一堆麻烦事和解决方法:现在先看一下建立ssh互信的方法(以ubuntu为例):具体步骤有了,楼主谈一些细节问题(很多时候都是在学习linux)。首先,我选择三台计算机,分别命名为node1,node2,node3系统分别为ubuntu14.04·13.1·14.04。

2015-04-22 21:17:48 2084

原创 lucene5.0建立索引并进行查找

说白了就是两个函数一个建立索引(写),另一个来查找(读),所以涉及到java IO的一些知识。import java.io.*; import java.nio.file.Paths;import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.s

2015-04-22 16:23:09 2516

原创 LCS的两种解法比较

动态规划问题一般具有两个要素:最优子结构与子问题重叠。通常在求解LCS问题时,我们都会用到两种方法:1. momo-ization(备忘录方法)利用了该问题的重叠子问题特性,而重叠子问题可以使用递归直接解决 0ABCBDAB000000000B001111

2015-04-20 16:36:47 2110

原创 算法学习之排序

由于学习缘故,将今日所学排序算法做以归纳总结,以备来日便宜:插入排序:public static void insertSort(int a[]) { int key; for(int j = 2;j < a.length;j++) { key = a[j]; //insert a[j] into the sorted sequencea[1..j-1] i

2015-04-17 15:18:51 343

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除