自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 收藏
  • 关注

转载 实战关键词提取

我要把人生变成科学的梦,然后再把梦变成现实。——居里夫人概述关键词是代表文章重要内容的一组词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。现实中大量的文本不包含关键词,这使得便捷得获取文本信息更困难,所以自动提取关键词技术具有重要的价值和意义。关键词提取分类有监督无监督有监督虽然精度高,但需要维护一个内容丰富的词表,需要大量的标注数据,人工成本过高。无...

2019-09-01 23:02:00 422

转载 图论——一个迷人的世界

虽然不允许我们看透自然界本质的秘密,从而认识现象的真实原因,但仍可能发生这样的情形:一定的虚构假设足以解释许多现象。 ——莱昂哈德·欧拉起源说到图论,不得不说数学大神欧拉了,图论起源于一个非常经典的问题——柯尼斯堡七桥问题。在18世纪初普鲁士柯尼斯堡有一条大河,河中有两个小岛。全城被大河分割成四块陆地,河上架有七座桥,把四块陆地联系起来(如上图)。当时许多市民都在思索一个问...

2019-08-18 08:48:00 937

转载 中文分词工具——jieba

汉字是智慧和想象力的宝库。 ——索尼公司创始人井深大简介在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个是人为判断的,机器很难界定。在此介绍中文分词工具jieba,其特点为:社区活跃、目...

2019-08-11 16:34:00 1141

转载 Python数据科学利器

每个工具都带有用来创造它的那种精神。 —— 海森堡《物理学和哲学》AnacondaAnaconda是一个python的科学计算发行版,其附带了一大批常用的数据科学包,不用再使用pip安装数据科学包,再也不用为各种数据科学包版本和依赖冲突发愁了,哈哈。condaconda和pip类似,conda专注数据科学包,且不仅仅用于安装python包,而pip为python量身定制的...

2019-08-03 11:06:00 156

转载 知识图谱发展历程

我似乎总是想以最节能的方式,用自然界里最平常的东西来造各种东西。—— 艾伦·麦席森·图灵发展历程知识图谱(Knowledge Graph)的历程发展可以追溯到20世纪70年代诞生的专家系统,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处...

2019-07-19 13:21:00 1337

转载 数据结构与算法《五》

惊奇就是科学的种子。—— 爱迪生LeetCode: 合并两个有序数组给定两个有序整数数组 nums1 和 nums2,将 nums2 合并到 nums1 中,使得 nums1 成为一个有序数组。说明:初始化 nums1 和 nums2 的元素数量分别为 m 和 n。你可以假设 nums1 有足够的空间(空间大小大于或等于 m + n)来保存 nums2 中的元素。示例...

2019-07-03 20:34:00 85

转载 数据结构与算法《四》

一切推理都必须从观察与实验得来。 —— 伽利略·伽利雷LeetCode: 搜索二维矩阵 II编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性:每行的元素从左到右升序排列。每列的元素从上到下升序排列。示例:现有矩阵 matrix 如下:[ [1, 4, 7, 11, 15], [2, 5, ...

2019-06-22 11:35:00 98

转载 数据结构与算法《三》

我并没有什么方法,只是对于一件事情很长时间很热心地去考虑罢了。 —— 艾萨克·牛顿LeetCode: 求众数给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。说明:你可以假设数组是非空的,并且给定的数组总是存在众数。示例1:输入: [3,2,3]输出: 3示例2:输入: [2,2,1,1,1,2,2]输出: 2...

2019-06-22 11:34:00 86

转载 数据结构与算法《二》

真理只有一个,它不在宗教中,而是在科学中。 ---达芬奇LeetCode: 只出现一次数字给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。说明:使用线性时间复杂度,不使用额外空间。示例:输入: [2,2,1]输出: 1分析:由于对时间复杂度和空间有限制,显然不能进行两次遍历和另开辟空间,这块考察位运算,相同的...

2019-06-22 11:34:00 81

转载 数据结构与算法《一》

学问是经验的积累,才能是刻苦的忍耐。 ——爱因斯坦互联网面试不管是电话面试还是现场面,少不了数据结构与算法,尤其大公司,徒手写算法题,是面试成功必备的技能。下面给出思维导图:程序=数据结构+算法,数据结构与算法是相辅相成的,数据结构为算法服务,算法作用于特定的数据结构。数据结构:计算机存储,组织数据的方式。算法:操作数据的方法,一个算法的优劣可以用空间复杂度和时间复杂度来衡...

2019-06-10 20:30:00 67

转载 Image Classification

Image Classification¶In this project, you'll classify images from the CIFAR-10 dataset. The dataset consists of airplanes, dogs, cats, and other ...

2019-03-05 19:30:00 404

转载 预测波士顿房价

机器学习工程师纳米学位¶模型评价与验证¶项目 1: 预测波士顿房价¶欢迎来到机器学习工程师纳米学位的第一个项目!在此文件中,有些示例代码已经提供给你,但你还需要实现更多的功能来让项目成功运行。除非有明确要求,你无须修改任何已给出的代码。以编程练习开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导,需...

2019-03-05 18:57:00 314

转载 预测泰坦尼克号乘客生还率

机器学习工程师纳米学位¶机器学习基础¶项目 0: 预测泰坦尼克号乘客生还率¶1912年,泰坦尼克号在第一次航行中就与冰山相撞沉没,导致了大部分乘客和船员身亡。在这个入门项目中,我们将探索部分泰坦尼克号旅客名单,来确定哪些特征可以最好地预测一个人是否会生还。为了完成这个项目,你将需要实现几个基于条件的预测并回答下面的问题。...

2019-03-05 18:51:00 373

转载 TigerGraph入门

测试机器配置1G内存,1个核,CentOS Linux release 7.4.1708 (Core)的云主机,一块50GHDD的云主机。1. 安装下载了目前最新的开发者版本,下载链接:https://www.tigergraph.com/developer/tar -xzvf tigergraph-developer-latest.tar.gzcd tig...

2018-07-04 12:04:00 910

转载 Neo4j电影关系图Cypher

CREATE (TheMatrix:Movie {title:'The Matrix', released:1999, tagline:'Welcome to the Real World'})CREATE (Keanu:Person {name:'Keanu Reeves', born:1964})CREATE (Carrie:Person {name:'Carrie-An...

2018-06-04 19:05:00 453

转载 Neo4j电影关系图

“电影关系图”实例将电影、电影导演、演员之间的复杂网状关系作为蓝本,使用Neo4j创建三者关系的图结构,虽然实例数据规模小但五脏俱全。步骤:一、 创建图数据:将电影、导演、演员等图数据导入Neo4j数据库中cypher语句: 1 CREATE (TheMatrix:Movie {title:'The Matrix', released:1999, tagline:'W...

2018-06-04 19:03:00 740

转载 Neo4j配置文件neo4j.conf

机器配置为256G内存,48核(物理核24)cpu,4T SAS盘(建议磁盘使用SSD)图数据库Neo4j配置文件neo4j.conf 中常用参数:dbms.active_database=graph.db 为指定安装目录data/databases下对应的数据库dbms.memory.heap.initial_size=20g 为最小的堆大小dbms.memory....

2018-05-17 18:22:00 2294

转载 Pygame安装问题

1.首先使用如下命令:conda install -c https://conda.anaconda.org/quasiben pygame测试报错:>>> import pygameTraceback (most recent call last): File "<stdin>", line 1, in <modul...

2018-03-04 18:22:00 231

转载 Mac上pycharm集成pyspark

前提:  1.已经安装好spark。我的是spark2.2.0。  2.已经有python环境,我这边使用的是python3.6。一、安装py4j使用pip,运行如下命令:  pip install py4j使用conda,运行如下命令:conda install py4j二、使用pycharm创建一个project。创建过程...

2017-12-17 23:06:00 297

转载 Hadoop FAQ

测试环境:Hadoop 2.6.0-cdh5.7.1apache-kylin-2.0.0-binkylin运行check-env.sh时,报如下警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes whe...

2017-08-13 14:01:00 86

转载 Install and Run NATS Streaming Server

NATS是一个开源的、轻量级的、高性能的分布式消息通信系统,使用的公司有百度、西门子、VMware、HTC和爱立信。NATS Streaming是以NATS为动力的数据流系统,是用go语言写的,NATS Streaming server可执行文件的名称是nats-streaming-server,NATS Streaming嵌入,扩展,并且与核心的NATS平台无缝的对接,NATS Str...

2017-07-31 10:10:00 178

转载 PG利用Multicorn访问CSV外部数据源

Multicorn 是一个 PostgreSQL 9.1+ 的扩展模块,用于简化外部数据封装开发,允许开发者使用 Python 编程语言开发。Install MulticornRequirementsPostgresql 9.1+Postgresql development packagesPython development packagespython 2.7 or &...

2017-07-28 23:20:00 240

转载 Postgres by BigSQL and Hadoop_fdw

测试Postgresql和远程Hive的Join操作。测试环境Centos6.8HDP2.4集群,其中Hive Server2位于主机名为hdp的主机上Postgres by BigSQL(pg96)Installation Steps由于Postgres by BigSQL上有编译好的hadoop_fdw,只需用其pgc命令直接安装,否则要去编译hadoop_fdw源代码,...

2017-07-28 22:09:00 252

转载 Postgresql_fdw

Postgresql_fdw测试环境Ubuntu 16.04 LTS云主机2台,主机名为pg1(192.168.0.34)和pg2(192.168.0.39)。安装postgresql下面这个源是官网提供的postgressql-9.4的源,ubuntu16.04自带postgresql-9.5的源。PostgreSQL Apt Repository创建文件...

2017-07-12 10:28:00 145

转载 Kafka FAQ

报错如下:Unable to read additional data from client sessionid 0x15d2c867a770006使用的kafka自带的zookeeper,测试使用一个节点,由于config/zookeeper.properties未配置server.1=lh:2888:3888。其中lh为主机名,加上此句并重启zookeeper。...

2017-07-10 13:15:00 70

转载 Go语言解密上篇中用java aes实现的加密

上一篇java aes文件加解密中加密的梅须逊雪三分白,雪却输梅一段香。使用go语言解密。解密代码如下:AESUtil.gopackage utilimport ( "crypto/cipher" "crypto/aes" "encoding/hex" "fmt")type Aes struct {}...

2017-07-03 15:45:00 111

转载 JAVA AES文件加解密

AES加解密算法,代码如下:/** * Created by hua on 2017/6/30. */import javax.crypto.Cipher;import javax.crypto.spec.IvParameterSpec;import javax.crypto.spec.SecretKeySpec;public class AESU...

2017-06-30 18:43:00 77

转载 PipelineDB Install and Test

InstallationPrerequisites:CentOS Linux release 7.2.1511 (Core)Download[root@citus1 ~]# wget https://s3-us-west-2.amazonaws.com/download.pipelinedb.com/pipelinedb-0.9.7u4-centos7-x86_...

2017-06-30 17:45:00 75

转载 CitusDB UPSERT

CitusDB的upsert功能postgresql9.5 版本支持 "UPSERT" 特性, 这个特性支持 INSERT 语句定义 ON CONFLICT DO UPDATE/IGNORE 属性,当插入 SQL 违反约束的情况下定义动作,而不抛出错误。环境citus62_96(默认安装的postgresql9.6)$ psql -Vpsql (PostgreSQL) 9.6....

2017-06-26 18:13:00 125

转载 Kafka部署

Kafka依赖Zookeeper,虽然Kafka自带zookeeper,但是建议单独部署,所以先部署Zookeeper。测试环境citus1,citus2,citus3三台机器。对主机名和ip在/etc/hosts文件中进行映射自行完成。部署zookeeperZookeeper版本:zookeeper-3.4.61.解压缩,修改配置cpzook...

2017-06-07 19:42:00 129

转载 ambari-cassandra-service

社区:https://github.com/Symantec/ambari-cassandra-service在HDP集群上安装和管理Cassandra服务,Apache Cassandra是一个开源的分布式数据库管理系统设计用于处理大量数据在许多商品服务器,提供高可用性,没有单点故障。Setup我是HDP 2.3下载Cassandra service文件夹1 V...

2017-05-30 20:53:00 239

转载 Linux 磁盘管理

Windows磁盘磁盘0(C盘,D盘,E盘等)Linux磁盘IDE接口  淘汰  hdSATA接口  主流  linux内核在2.4之前被识别成hd,2.4之后被识别成sdSCSI接口  服务器  sd/dev/sda,/dev/sdb,/dev/sdca,b,c磁盘顺序分区:/dev/sda1,/dev/sda2主引导记录(MBR)初始...

2017-05-30 20:50:00 68

转载 yum只下载不安装软件包

一、通过yum自带的工具yumdownloader[root@host-172-16-1-35 interpreter]# rpm -ql yum-utilspackage yum-utils is not installed[root@host-172-16-1-35 interpreter]# rpm -qa |grep yum-utils[root@ho...

2017-05-30 20:44:00 62

转载 使用R语言预测产品销量

使用R语言预测产品销量通过不同的广告投入,预测产品的销量。因为响应变量销量是一个连续的值,所以这个问题是一个回归问题。数据集共有200个观测值,每一组观测值对应一种市场情况。数据特征TV:对于一个给定市场的单一产品,用于电视上的广告费用(以千为单位)Radio:用于广告媒体上投资的广告费用Newspaper:用于报纸媒体上的广告费用响应...

2017-05-30 20:28:00 2539

转载 CitusDB Multi-node Install and Test

Multi-node setup on CentOS参考官网:https://docs.citusdata.com/en/v6.2/installation/production_rhel.htmlTest EnvironmentsCentOS Linux release 7.2.1511 (Core)Three nodes(citus1,citus2,cit...

2017-05-27 09:56:00 84

转载 bash 遍历目录

bash遍历目录脚本traverse.sh:#!/bin/bashdatadir=$1declare -a dirlistdirlist=`ls $datadir 2>/dev/null`for i in ${dirlist[@]}do declare -a dirlist1 dirlist1=`ls $datadir/$i 2>/de...

2017-04-06 11:12:00 764

转载 R的数据结构

1.对象的5种基本类型字符(character)数值(numeric:real numbers)整数(integer)复数(complex):1+2i逻辑(logical:TRUE/FALSE)2.对象的属性(attribute)名称(name)维度(dimensions:matrix,array)类型(class)长度(lengt...

2017-03-30 11:54:00 75

转载 Unable to start services through AMBARI UI

ambari开启nodemanager卡住,后台日志:20 Mar 2017 13:30:50,556 WARN [ambari-action-scheduler] ActionScheduler:200 - Exception receivedjava.lang.RuntimeException: Invalid DB state, broken one-to-one r...

2017-03-22 15:25:00 188

转载 Spark on YARN资源申请

1.spark submit参数$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]Multiple versions of Spark are installed but S...

2017-03-16 15:16:00 141

转载 Mllib数据类型(密集向量和稀疏向量)

1.局部向量Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse)。密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持。example:向量(5.2,0.0,5.5)密集向量表示:[5.2,0.0,5.5]稀疏向量表示:(3,[0,2],[5.2,5.5]) # 3是向量(5.2,0.0,5.5)的长度,除去0值外...

2017-03-04 08:45:00 224

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除