自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python中文分词库结巴使用示例

结巴是开源库,中文分词,使用简单,可以添加用户字典 https://github.com/fxsjy/jieba使用示例from xml.etree import ElementTreeimport reimport jiebaimport jieba.posseg as psegjieba.load_userdict("dict.txt")#读rootroot = ElementTree

2017-01-17 21:09:58 2695

原创 requests+BeautifulSoup爬虫示例程序

import requestsfrom bs4 import BeautifulSouptry: import xml.etree.cElementTree as ETexcept ImportError: import xml.etree.ElementTree as ETbase_url = 'http://history.xikao.com'response = req

2017-01-17 09:43:27 776

原创 jersey构建Web项目、Json格式传输

通过mvn创建jersey项目:https://jersey.java.net/download.htmlmvn archetype:generate -DarchetypeGroupId=org.glassfish.jersey.archetypes \ -DarchetypeArtifactId=jersey-quickstart-webapp -DarchetypeVersion=2.

2017-01-15 10:49:30 1083

原创 tomcat-maven-plugin部署Web项目配置文件

本文为maven管理的Web项目部署需要配置的文件项目的Pom.xml:<build> <finalName>productmgmt</finalName> <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> <artif

2017-01-15 10:26:10 583

原创 按开源项目风格构建部署自己的项目

本文简单介绍如何将自己的maven项目组织成开源项目结构,也就是可以发布之后让别人下载解压缩运行脚本启动。背景知识在部署开源项目时候,一般解压缩之后设置一些配置文件就可以通过脚本启动了。 Hadoop和Spark直接./start-all.sh就可以启动服务器了,再通过客户端连接进行操作。 Cassandra也是先启动服务器,再启动客户端连接。本文仿照这种服务器+客户端的脚本启动方式来将自己的项

2017-01-14 22:54:01 687

原创 mac安装使用mysql

官网下载dmg安装包安装https://dev.mysql.com/downloads/file/?id=467573安装之后发现Launchpad中没有mysql。 其实默认安装在了/usr/local/mysql。-输入mysql找不到命令,映射链接到/usr/bin中sudo ln -s /usr/local/mysql/bin/mysql /usr/bin-测试是否安装成功mys

2017-01-14 16:22:29 981

原创 命令行运行jar包方法示例

-Xbootclasspath/a:后面加外部jar包, -jar后面加运行的jar包java -Xbootclasspath/a:some1.jar:./some2.jar -jar run.jar在jar包中的META_INF文件夹(可以用maven-jar-plugin插件自动生成),里面有MANIFEST.MF文件,通过Class-Path指定依赖的jar包路径(jar包可以通过mave

2017-01-13 13:59:17 1727

原创 java的switch语句问题

switch参数为int,char等基本类型,case后直接跟常数public static void fun(int s) { switch (s) { case 1:break; } }switch参数为enum类型,case后面跟的要省去类名enum Type{ INT, BOOLEAN}public static vo

2017-01-09 15:49:00 583

原创 Mac上使用Idea发热严重

打开应用程序,右击idea显示包内容,在Contents/bin/下有个idea.vmoptions文件,将分配的内存调大就可以了。就是下边这两项:-Xms128m-Xmx750m

2017-01-09 11:32:31 8975 3

原创 Spark程序常见问题

在eclipse中运行时提示A master URL must be set in your configuration在VM arguments里添加  -Dspark.master=local  解决了内存溢出-Xms512m -Xmx512m写spark插件,插件中使用slf4j日志框架  在cli运行时打印不出来原

2017-01-03 14:42:42 691

原创 URL和URI

URI是universal resource identifier 统一资源标志符     访问资源的命名机制://存放资源的主机名/资源自身的名称URL是universal resource locator 统一资源定位符     protocal://hostname[:port]/path/[;parameters][?query]#fragment     协议://主机+

2017-01-03 14:30:43 400

原创 git常见问题

如果输入$ git remote add origin git@github.com:djqiang(github帐号名)/gitdemo(项目名).git     提示出错信息:fatal: remote origin already exists.    解决办法如下:    1、先输入$ git remote rm origin    2、再输入$ git

2017-01-03 14:28:30 400

原创 爬虫示例程序

importrequestsfrombs4importBeautifulSouptry: importxml.etree.cElementTreeasETexceptImportError: importxml.etree.ElementTreeasETbase_url='http://history.xikao.com'response=requ...

2017-01-03 14:27:14 528

原创 jersey使用方法

通过mvn创建jersey项目:https://jersey.java.net/download.htmlmvn archetype:generate -DarchetypeGroupId=org.glassfish.jersey.archetypes \ -DarchetypeArtifactId=jersey-quickstart-webapp -Darchet

2017-01-03 14:25:49 1201

原创 使用tomcat-maven-plugin部署的配置及方法

Pom.xml: productmgmt org.codehaus.mojo tomcat-maven-plugin http://localhost:8080/manager/text

2017-01-03 14:24:49 871

原创 suse上的一些简单操作

安装jdk,解压后在/etc/profile中设置环境变量JAVA_HOME=/usr/local/jdk1.7.0_79CLASSPATH=.:$JAVA_HOME/lib/tools.jarPATH=$JAVA_HOME/bin:$PATHexport JAVA_HOME CLASSPATH PATH修改主机名称/etc/hostname/etc/HOSTN

2017-01-03 14:22:52 1225

原创 linux中安装Sbt、编译scala程序

sbt介绍sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上。sbt项目环境建立sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下:|--build.sbt |--lib |--project |--src | |--main | | |--scala...

2017-01-03 14:21:42 4179 2

翻译 TPC-DI: The First Industry Benchmark forData Integration

TPC:事务处理性能委员会小型的数据集成:一系列定制化的程序,数据库的存储过程实现。中大型数据集成:使用通用的数据集成工具两种load进程:historical load:load所有数据incremental update:插入、更新、删除数据源数据模型:CDC(change data capture),距上次修改过的数据,

2017-01-03 13:54:25 637

翻译 TARDiS:A Branch-and-Merge Approach To Weak Consistency

事务异步复制的不同存储:弱一致性的分支与合并方法摘要:本文叙述了一个针对弱一致性系统设计的事务型键值对存储系统——TARDIS的设计、实现和评估。TARDIS暴露出在弱一致性系统中出现的基础的抽象概念:冲突-》分支的集合。提出了一种新的并发控制机制:冲突-》分支。以此来保证从一个分支继承出的执行线程看到的存储是有序的,保证应用逻辑简单。还提供了应用随时按需自动合并分支。

2017-01-03 13:53:57 575

原创 Session Guarantees for Weakly Consistent Replicated Data

这篇论文介绍了四种会话一致性的定义以及实现方法。这里的会话不仅表示一次连接,而是广义的,比如一个客户,多次连接也算一个session。四种一致性保证为:read your writes:读操作能反映之前的写monotonic reads:成功的读反映非下降的写集合writes follow reads:写 在 他们依赖的读 后 传播monotonic writes:

2017-01-03 13:47:58 438

原创 Probabilistically Bounded Staleness for Practical Partial Quorums

概率有界过时的实际部分法定人数部分、不严格的法定人副本中,读写副本集不要求相交,这样只能保证最终一致性,但是实际中却发现给定的延迟要求时部分法定人工作的很好。本文提出概率有界过时一致性。展示了为什么最终一致性系统能够在给定的延迟需求时经常返回一致的数据。Quorum:R+W>N,强一致性Partial quorums:R+WDynamo是

2017-01-03 13:46:31 576

翻译 Building the Enterprise Fabric for Big Data with Vertica and Spark Integration

通过大数据分析与Spark构建企业级大数据平台主要工作:集成了HPE Vertica enterprise database和Spark开源大数据计算引擎优势:可以快速、可靠地在Vertica和Spark中传输数据,并将spark生成的机器学习库部署在Vertica,来分析Vertica中的数据。这种架构扩展了Vertica的丰富的SQL分析功能和Spark的机器学习库

2017-01-03 13:45:33 1002

原创 java实现RDD算子

spark基础与java api介绍http://www.cnblogs.com/tovin/p/3832405.html  textFile:                                                可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件 JavaRDD lines =

2017-01-03 13:32:30 6217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除