- 博客(90)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注
原创 python登陆12306
import requests from json import loads from urllib3 import disable_warnings from urllib3.exceptions import InsecureRequestWarning from PIL import Image head = { 'User-Agent': 'Mozilla/5.0 (Windows N...
2018-06-28 17:01:59 616
原创 python实现12306余票抓取功能
最近在自学python,基础学完后,就写了个抓取12306余票的功能,也参考了网上的一些资料。大家如果也想通过这样的练习来提高自己的python,可以看看。import re import requests import json class LeftTicketQuery: def queryStation(self): stationUrl = "https://kyfw.12306....
2018-06-28 16:54:44 1110
转载 Intellij IDEA 使用技巧一
1、文本编辑删除 ctr + y 复制 ctr + D2、智能提示 提示 ctr + space 智能提示 ctr + shift + space 完成当前语句 ctr + shift + enter 建议提示为参数 ctr + alt + P
2016-04-26 16:40:24 1432
转载 (冲突)十大Intellij IDEA快捷键
Intellij IDEA中有很多快捷键让人爱不释手,stackoverflow上也有一些有趣的讨论。每个人都有自己的最爱,想排出个理想的榜单还真是困难。以前也整理过Intellij的快捷键,这次就按照我日常开发时的使用频率,简单分类列一下我最喜欢的十大快捷-神-键吧。1 智能提示Intellij首当其冲的当然就是Intelligence智能!基本的代码提示用Ctrl+Space,
2016-04-26 16:39:50 9673 1
转载 IntelliJ IDEA 快捷键
Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space
2016-04-26 16:38:31 351
转载 hive-调优笔记:JVM重用,并行执行、调整reducer个数的用处
1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的 影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和 reduce任务的,这是jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重新
2016-04-26 16:36:33 1697
原创 hive安装配置以及集成hbase
前期条件:已经安装完hadoop、hbase和元数据配置库mysql。1、下载hive:http://archive.apache.org/dist/hive/hive-0.9.0/hive-0.9.0.tar.gz2、配置hive:解压文件在hadoop上的一个节点:tar zxvf hive-0.9.0.tar.gz进入conf目录:cp -rp hive-default.
2016-04-26 16:35:43 888
转载 Java代码通过JDBC连接Hiveserver2
用Java代码通过JDBC连接Hiveserver2 我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏
2016-04-26 16:33:35 1016
原创 hive基本总结
1,Hive支持的类型: TINYINT tinyint类型 SMALLINT smallint类型 INT int类型 BIGINT bigint类型 主要用于状态,类别,数量的字段 BOOLEAN boolean类型 FLOAT float类型 DOUBLE double类型 主要用于金额的字段
2016-04-26 16:32:14 385
转载 hive支持sql大全(收藏版)
hive操作数据库还是比较方便的,因此才会有hbase与hive整合。下面我们hive的强大功能吧。为了增强阅读性,下面提几个问题:hive支持哪些运算符?hive是否支持左右连接?hive如何截取字符串?hive提供了那些系统函数?目录一、关系运算:... 41. 等值比较: =. 42. 不
2016-04-26 16:31:37 1429
原创 hive常见错误汇总
1,错误信息:[ERROR] Terminal initialization failed; falling back to unsupported解决方案:将hadoop中share/hadoop/yarn/lib路径下的jline包换成hive中匹配的jar包。注意需要删除share/hadoop/yarn/lib下原有的jline包2,错误信息:Caused by: ja
2016-04-26 16:29:44 1543
原创 maven常用命令
这里主要是在eclipse中使用maven,因此只使用到了一部分命令,整理下来方便以后查阅。生成清除Eclipse项目结构:mvn eclipse:eclipsemvn eclipse:clean清理(删除target目录下编译内容)mvn clean仅打包Web页面文件mvn war:exploded编译项目mvn compile打包发
2016-04-26 16:29:03 262
原创 nutch参考文献地址
杨尚川博客:http://yangshangchuan.iteye.com/ 开源爬虫框架各有什么优缺点:http://www.aboutyun.com/thread-15968-1-1.html#userconsent#搭建Hadoop2.6+Hbase0.98.9+Nutch2.3环境: http://www.xinglongjian.com/
2016-04-26 16:28:07 415
转载 redis.conf的配置解析
redis.conf的配置解析?1234567891011121314151617181920212223242526272829
2016-04-26 16:25:42 687
原创 redis配置文件redis-conf
#包含通用配置 include /home/hadoop/redisCluster/redis-common.conf #监听tcp端口 port 7000#工作目录dir /home/hadoop/redisCluster/7000/#最大可用内存 maxmemory 10g #内存耗尽时采用的淘汰策略: # volatile-lru -> re
2016-04-26 16:24:14 338
转载 redis常用内存优化手段与参数
原文地址:http://www.infoq.com/cn/articles/tq-redis-memory-usage-optimization-storage通过上面的实现上的分析,可以看出redis的内存管理成本比较高,即占用了过多的内存,redis的作者对这点也很清楚,所以提供了一系列的参数和手段来控制和节省内存:首先最重要的一点是不要开启redis的vm选项,即虚拟内存功能
2016-04-26 16:22:13 1750
转载 redis配置文件redis-common.conf
#GENERAL # 默认Rdis不会作为守护进程运行。如果需要的话配置成'yes'# 注意配置成守护进程后Redis会将进程号写入文件/var/run/redis.piddaemonize yes # TCP listen() backlog.## 在高并发环境下你需要一个高backlog值来避免慢客户端连接问题。注意Linux内核默默地将这个值减小# 到
2016-04-26 16:21:42 910
原创 手动安装rubygems
1,下载rubygems-2.4.8.tar包,下载地址:https://rubygems.org/pages/download 点击下载TGZ2,tar -zxvf 解压该压缩包3,进入解压目录,执行:ruby setup.rb4,如果出现错误提示说:ERROR:RDoc documentation generator not installed: no such file to l
2016-04-26 16:19:25 12462
转载 Redis配置集群遇到问题及解决方法
配置完所有主节点后,报" ERR Invalid node address specified"由于redis-trib.rb 对域名或主机名支持不好,故在创建集群的时候要使用ip:port的方式redis-trib.rb create ip1:port1 ip2:port2 ip3:port3创建集群时报某个err slot 0 is already busy (redi
2016-04-26 16:19:06 2148
原创 redis集群搭建手册
1,在每台需要安装redis的机器上安装gccyum install –y gcc*2,下载redis最新版本redis-3.0.2.tar.gz,拷贝到每台机器上,然后执行tar -zxvf redis-3.0.2.tar.gz,进入安装完成的目录,make编译,成功编译后执行make install 安装最后安装完成目录如下:/home/hadoop/red
2016-04-26 16:18:13 302
转载 zookeeper3.4.5自动清理日志
zookeeper3.4.5自动清理日志从3.4.0开始,zookeeper提供了自动清理snapshot和事务日志的功能,通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg中配置的,将其前面的注释去掉,根据需要修改日志保留个数:
2016-04-26 16:13:00 435
转载 zookeeper适用场景:zookeeper解决了哪些问题
问题导读:1.master挂机,传统做法备份必然是以前数据,该如何保证挂机数据与备份数据一致?2.分布式系统如何实现对同一资源的访问,保证数据的强一致性?3.集群中的worker挂了,传统做法是什么?zookeeper又是如何做的?分布式系统的运行是很复杂的,因为涉及到了网络通信还有节点失效等不可控的情况。下面介绍在最传统的master-workers模型,主要可以会遇到什
2016-04-26 16:11:00 316
原创 zookeeper集群安装手册
1,修改 zookeeper-3.4.5/conf目录下面的zoo_sample.cfg为zoo.cfg 。通过命令 : mv zoo_sample.cfg zoo.cfg并且进一步配置文件的内容如下所示:tickTime=2000dataDir=/home/hadoop/zookeeper/datadataLogDir=/data/hadoop_data/
2016-04-25 11:58:13 260
原创 Storm环境搭建注意事项
去官网下载最新版本的storm:http://storm.apache.org/downloads.html搭建可以参考该文章: http://www.aboutyun.com/thread-6854-1-1.html注意事项: storm.zookeeper.servers:- "datanode01"- "datanode02"- "da
2016-04-25 11:56:33 703
原创 linux设置定时任务
1,crontab -e 编辑添加定时任务2,*/2 * * * * /home/admin/jiaoben/buy/deleteFile.sh 每个两分钟执行一下脚本3,crontab -l 查看该用户下的定时任务4,crontab -u 定某个用户的cron服务5,crontab -r 删除没个用户的cron服务6,cron文件语法: 分 小时
2016-04-25 11:43:52 435
转载 rpm命令汇总
RPM是RedHat Package Manager(RedHat软件包管理工具)类似Windows里面的“添加/删除程序”rpm 执行安装包二进制包(Binary)以及源代码包(Source)两种。二进制包可以直接安装在计算机中,而源代码包将会由RPM自动编译、安装。源代码包经常以src.rpm作为后缀名。常用命令组合: -ivh:安装显示安装进度--inst
2016-04-25 11:42:55 226
转载 linux top命令详解
top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombi
2016-04-25 11:42:16 376
原创 kafka简单安装部署
1,下载kafka二进制包:http://kafka.apache.org/downloads.html2,修改config下的server.properties配置文件: broker.id=1 设置为唯一标示 port=9092 默认端口 host.name=webserver 本机hostname log.dirs=/data/kafka/logs
2016-04-25 11:41:35 292
原创 kafka基本命令
1,./kafka-topics.sh --create --zookeeper webserver:2181 --replication-factor 3 --partitions 1 --topic mykafka2,./kafka-topics.sh --list --zookeeper webserver:21813,./kafka-topics.sh --describe
2016-04-25 11:40:47 266
原创 Github下载代码与常用命令
clone下载代码:1,登录git hub 找打你要下载的代码仓库地址2,拷贝地址,然后到本地命令窗口执行 cd git_hub 目录,然后继续执行git clone xxx.git,靠实现仓库的克隆。3,代码提交: git add . git status 查看提交文件 git commit -m "comment" 提交文
2016-04-25 11:29:36 731
转载 eclipse在线安装ivy和ivyde
在eclipse配置Ivy外加lib管理工具 , 用来导入项目需要的lib包这个工具可以指定需要那个lib,定义在xml里之后,ivy就会自动帮你添加外部包很方便!步骤:1. 下载资源 (可能出问题,多google 、多百度 无非就是缺了feature对应的plugin)eclipse在install new software输入: http
2016-04-25 11:27:30 3405
原创 eclipse设置反编译
1,下载http://sourceforge.net/projects/jadclipse/files/jadclipse3.3/对应的反编译jar包2,下载jad.exe 将net.sf.jadclipse_3.3.0.jar拷贝到eclipse的plugins目录下;删除eclipse的configuration目录下org.eclipse.update文件,重新启动eclip
2016-04-25 11:26:46 347
原创 eclipse基于ant的build.xml搭建项目
1,new->project->java project from existing ant buildfile然后选择build.xml点击finlsh项目搭建完成
2016-04-25 11:23:05 418
原创 nagios安装
1,去nagios官网下载最新版本安装包:https://www.nagios.org/downloads/2,下载核心包和核心插件包:nagios core和nagios core plugins3,安装说明在下载包下面的点击进入后出现如下界面:点击进入后按PDF文件说明进行安装:4,安装顺序,优先安装core程序,再安装核心插件。5,下载安装中文插件包:ht
2016-04-25 11:17:46 345
原创 Nutch基本命令
1:nutch读取hbase数据导出文本文件:./nutch readdb -dump /data/nutch_db/1108 -crawlId TestCrawl -content会执行一个mr程序,/data/nutch_db/1108是mr的输出路径TestCrawl是hbase表名的前半部分。2: inject inject new urls into the
2016-04-25 11:11:39 363
原创 Nutch2.3+Hbase0.94环境搭建
1,修改nutch-site.xml storage.data.store.class org.apache.gora.hbase.store.HBaseStore Default class for storing data http.agent.name JustinNutchAgent
2016-04-25 11:10:07 332
原创 SOLR安装简单配置
1,从官网下载solr最新安装包:http://lucene.apache.org/solr/downloads.html2,解压压缩包,修改bin目录下的solr.in.sh配置文件: a,SOLR_JAVA_HOME=$JAVA_HOME b,SOLR_HEAP="4096m"设置内存大小,如果有是RAM模式需要根据实际数据量设置内存大小,Increase Java H
2016-04-25 11:08:30 479
原创 solr更新schema.xml后,重新把配置文件注入到zookeeper
1,solr更新schema.xml后,重新把配置文件注入到zookeeper:./zkcli.sh -z Master.Hadoop:2181 -cmd putfile /solr/configs/poi_index_update/schema.xml /data/solr-5.3.1/server/solr/configsets/poi_index_update_configs/con
2016-04-25 11:04:32 4650 2
转载 SOLR缓存调优
缓存在 Solr 中充当了一个非常重要的角色,Solr 中主要有这三种缓存:Filter cache(过滤器缓存),用于保存过滤器(fq 参数)和层面搜索的结果Document cache(文档缓存),用于保存 lucene 文档存储的字段Query result(查询缓存),用于保存查询的结果还有第四种缓存,lucene 内部的缓存,不过该缓存外部无法控制到。通过这
2016-04-25 11:03:33 2874
原创 Solr常用命令
1,./solr start -noprompt 单机启动solr2,集群方式启动:./solr -c -p 8983 -z Master.Hadoop:2181 -s /home/solr-5.3.0/server/solr_navinfo -noprompt3,对某个目录文件添加索引:/post -c gettingstarted docs/ -c 把索引放到
2016-04-25 11:03:04 1410
razorsql7+注册码生成器+注册注意事项
2016-12-08
BTrace监控远程服务器使用实例
2014-11-20
oracle PL/SQL测试题目和详细答案
2012-05-31
Impala 不能同步hive元数据
2016-05-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人