- 博客(23)
- 收藏
- 关注
原创 python中文分词库结巴使用示例
结巴是开源库,中文分词,使用简单,可以添加用户字典 https://github.com/fxsjy/jieba使用示例from xml.etree import ElementTreeimport reimport jiebaimport jieba.posseg as psegjieba.load_userdict("dict.txt")#读rootroot = ElementTree
2017-01-17 21:09:58 2695
原创 requests+BeautifulSoup爬虫示例程序
import requestsfrom bs4 import BeautifulSouptry: import xml.etree.cElementTree as ETexcept ImportError: import xml.etree.ElementTree as ETbase_url = 'http://history.xikao.com'response = req
2017-01-17 09:43:27 776
原创 jersey构建Web项目、Json格式传输
通过mvn创建jersey项目:https://jersey.java.net/download.htmlmvn archetype:generate -DarchetypeGroupId=org.glassfish.jersey.archetypes \ -DarchetypeArtifactId=jersey-quickstart-webapp -DarchetypeVersion=2.
2017-01-15 10:49:30 1083
原创 tomcat-maven-plugin部署Web项目配置文件
本文为maven管理的Web项目部署需要配置的文件项目的Pom.xml:<build> <finalName>productmgmt</finalName> <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> <artif
2017-01-15 10:26:10 583
原创 按开源项目风格构建部署自己的项目
本文简单介绍如何将自己的maven项目组织成开源项目结构,也就是可以发布之后让别人下载解压缩运行脚本启动。背景知识在部署开源项目时候,一般解压缩之后设置一些配置文件就可以通过脚本启动了。 Hadoop和Spark直接./start-all.sh就可以启动服务器了,再通过客户端连接进行操作。 Cassandra也是先启动服务器,再启动客户端连接。本文仿照这种服务器+客户端的脚本启动方式来将自己的项
2017-01-14 22:54:01 687
原创 mac安装使用mysql
官网下载dmg安装包安装https://dev.mysql.com/downloads/file/?id=467573安装之后发现Launchpad中没有mysql。 其实默认安装在了/usr/local/mysql。-输入mysql找不到命令,映射链接到/usr/bin中sudo ln -s /usr/local/mysql/bin/mysql /usr/bin-测试是否安装成功mys
2017-01-14 16:22:29 981
原创 命令行运行jar包方法示例
-Xbootclasspath/a:后面加外部jar包, -jar后面加运行的jar包java -Xbootclasspath/a:some1.jar:./some2.jar -jar run.jar在jar包中的META_INF文件夹(可以用maven-jar-plugin插件自动生成),里面有MANIFEST.MF文件,通过Class-Path指定依赖的jar包路径(jar包可以通过mave
2017-01-13 13:59:17 1727
原创 java的switch语句问题
switch参数为int,char等基本类型,case后直接跟常数public static void fun(int s) { switch (s) { case 1:break; } }switch参数为enum类型,case后面跟的要省去类名enum Type{ INT, BOOLEAN}public static vo
2017-01-09 15:49:00 583
原创 Mac上使用Idea发热严重
打开应用程序,右击idea显示包内容,在Contents/bin/下有个idea.vmoptions文件,将分配的内存调大就可以了。就是下边这两项:-Xms128m-Xmx750m
2017-01-09 11:32:31 8975 3
原创 Spark程序常见问题
在eclipse中运行时提示A master URL must be set in your configuration在VM arguments里添加 -Dspark.master=local 解决了内存溢出-Xms512m -Xmx512m写spark插件,插件中使用slf4j日志框架 在cli运行时打印不出来原
2017-01-03 14:42:42 691
原创 URL和URI
URI是universal resource identifier 统一资源标志符 访问资源的命名机制://存放资源的主机名/资源自身的名称URL是universal resource locator 统一资源定位符 protocal://hostname[:port]/path/[;parameters][?query]#fragment 协议://主机+
2017-01-03 14:30:43 400
原创 git常见问题
如果输入$ git remote add origin git@github.com:djqiang(github帐号名)/gitdemo(项目名).git 提示出错信息:fatal: remote origin already exists. 解决办法如下: 1、先输入$ git remote rm origin 2、再输入$ git
2017-01-03 14:28:30 400
原创 爬虫示例程序
importrequestsfrombs4importBeautifulSouptry: importxml.etree.cElementTreeasETexceptImportError: importxml.etree.ElementTreeasETbase_url='http://history.xikao.com'response=requ...
2017-01-03 14:27:14 528
原创 jersey使用方法
通过mvn创建jersey项目:https://jersey.java.net/download.htmlmvn archetype:generate -DarchetypeGroupId=org.glassfish.jersey.archetypes \ -DarchetypeArtifactId=jersey-quickstart-webapp -Darchet
2017-01-03 14:25:49 1201
原创 使用tomcat-maven-plugin部署的配置及方法
Pom.xml: productmgmt org.codehaus.mojo tomcat-maven-plugin http://localhost:8080/manager/text
2017-01-03 14:24:49 871
原创 suse上的一些简单操作
安装jdk,解压后在/etc/profile中设置环境变量JAVA_HOME=/usr/local/jdk1.7.0_79CLASSPATH=.:$JAVA_HOME/lib/tools.jarPATH=$JAVA_HOME/bin:$PATHexport JAVA_HOME CLASSPATH PATH修改主机名称/etc/hostname/etc/HOSTN
2017-01-03 14:22:52 1225
原创 linux中安装Sbt、编译scala程序
sbt介绍sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上。sbt项目环境建立sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下:|--build.sbt |--lib |--project |--src | |--main | | |--scala...
2017-01-03 14:21:42 4179 2
翻译 TPC-DI: The First Industry Benchmark forData Integration
TPC:事务处理性能委员会小型的数据集成:一系列定制化的程序,数据库的存储过程实现。中大型数据集成:使用通用的数据集成工具两种load进程:historical load:load所有数据incremental update:插入、更新、删除数据源数据模型:CDC(change data capture),距上次修改过的数据,
2017-01-03 13:54:25 637
翻译 TARDiS:A Branch-and-Merge Approach To Weak Consistency
事务异步复制的不同存储:弱一致性的分支与合并方法摘要:本文叙述了一个针对弱一致性系统设计的事务型键值对存储系统——TARDIS的设计、实现和评估。TARDIS暴露出在弱一致性系统中出现的基础的抽象概念:冲突-》分支的集合。提出了一种新的并发控制机制:冲突-》分支。以此来保证从一个分支继承出的执行线程看到的存储是有序的,保证应用逻辑简单。还提供了应用随时按需自动合并分支。
2017-01-03 13:53:57 575
原创 Session Guarantees for Weakly Consistent Replicated Data
这篇论文介绍了四种会话一致性的定义以及实现方法。这里的会话不仅表示一次连接,而是广义的,比如一个客户,多次连接也算一个session。四种一致性保证为:read your writes:读操作能反映之前的写monotonic reads:成功的读反映非下降的写集合writes follow reads:写 在 他们依赖的读 后 传播monotonic writes:
2017-01-03 13:47:58 438
原创 Probabilistically Bounded Staleness for Practical Partial Quorums
概率有界过时的实际部分法定人数部分、不严格的法定人副本中,读写副本集不要求相交,这样只能保证最终一致性,但是实际中却发现给定的延迟要求时部分法定人工作的很好。本文提出概率有界过时一致性。展示了为什么最终一致性系统能够在给定的延迟需求时经常返回一致的数据。Quorum:R+W>N,强一致性Partial quorums:R+WDynamo是
2017-01-03 13:46:31 576
翻译 Building the Enterprise Fabric for Big Data with Vertica and Spark Integration
通过大数据分析与Spark构建企业级大数据平台主要工作:集成了HPE Vertica enterprise database和Spark开源大数据计算引擎优势:可以快速、可靠地在Vertica和Spark中传输数据,并将spark生成的机器学习库部署在Vertica,来分析Vertica中的数据。这种架构扩展了Vertica的丰富的SQL分析功能和Spark的机器学习库
2017-01-03 13:45:33 1002
原创 java实现RDD算子
spark基础与java api介绍http://www.cnblogs.com/tovin/p/3832405.html textFile: 可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件 JavaRDD lines =
2017-01-03 13:32:30 6217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人