滑过的板砖-CSDN博客

原创 python登陆12306

import requests from json import loads from urllib3 import disable_warnings from urllib3.exceptions import InsecureRequestWarning from PIL import Image head = { 'User-Agent': 'Mozilla/5.0 (Windows N...

2018-06-28 17:01:59 616

原创 python实现12306余票抓取功能

最近在自学python，基础学完后，就写了个抓取12306余票的功能，也参考了网上的一些资料。大家如果也想通过这样的练习来提高自己的python，可以看看。import re import requests import json class LeftTicketQuery: def queryStation(self): stationUrl = "https://kyfw.12306....

2018-06-28 16:54:44 1110

转载 Intellij IDEA 使用技巧一

1、文本编辑删除 ctr + y 复制 ctr + D2、智能提示提示 ctr + space 智能提示 ctr + shift + space 完成当前语句 ctr + shift + enter 建议提示为参数 ctr + alt + P

2016-04-26 16:40:24 1432

转载 (冲突)十大Intellij IDEA快捷键

Intellij IDEA中有很多快捷键让人爱不释手，stackoverflow上也有一些有趣的讨论。每个人都有自己的最爱，想排出个理想的榜单还真是困难。以前也整理过Intellij的快捷键，这次就按照我日常开发时的使用频率，简单分类列一下我最喜欢的十大快捷-神-键吧。1 智能提示Intellij首当其冲的当然就是Intelligence智能！基本的代码提示用Ctrl+Space，

2016-04-26 16:39:50 9673 1

转载 IntelliJ IDEA 快捷键

Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space

2016-04-26 16:38:31 351

转载 hive-调优笔记：JVM重用，并行执行、调整reducer个数的用处

1、JVM重用是hadoop调优参数的内容，对hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或者task特别多的场景，这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和 reduce任务的，这是jvm的启动过程可能会造成相当大的开销，尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重新

2016-04-26 16:36:33 1697

原创 hive安装配置以及集成hbase

前期条件：已经安装完hadoop、hbase和元数据配置库mysql。1、下载hive:http://archive.apache.org/dist/hive/hive-0.9.0/hive-0.9.0.tar.gz2、配置hive：解压文件在hadoop上的一个节点：tar zxvf hive-0.9.0.tar.gz进入conf目录：cp -rp hive-default.

2016-04-26 16:35:43 888

转载 Java代码通过JDBC连接Hiveserver2

用Java代码通过JDBC连接Hiveserver2 我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信，但这三种方式最常用的是CLI；Client 是Hive的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出Hive Server所在节点，并且在该节点启动 Hive Server。 WUI 是通过浏

2016-04-26 16:33:35 1016

原创 hive基本总结

1，Hive支持的类型： TINYINT tinyint类型 SMALLINT smallint类型 INT int类型 BIGINT bigint类型主要用于状态,类别,数量的字段 BOOLEAN boolean类型 FLOAT float类型 DOUBLE double类型主要用于金额的字段

2016-04-26 16:32:14 385

转载 hive支持sql大全（收藏版）

hive操作数据库还是比较方便的，因此才会有hbase与hive整合。下面我们hive的强大功能吧。为了增强阅读性，下面提几个问题：hive支持哪些运算符？hive是否支持左右连接？hive如何截取字符串？hive提供了那些系统函数？目录一、关系运算：... 41. 等值比较: =. 42. 不

2016-04-26 16:31:37 1429

原创 hive常见错误汇总

1，错误信息：[ERROR] Terminal initialization failed; falling back to unsupported解决方案：将hadoop中share/hadoop/yarn/lib路径下的jline包换成hive中匹配的jar包。注意需要删除share/hadoop/yarn/lib下原有的jline包2，错误信息：Caused by: ja

2016-04-26 16:29:44 1543

原创 maven常用命令

这里主要是在eclipse中使用maven，因此只使用到了一部分命令，整理下来方便以后查阅。生成清除Eclipse项目结构：mvn eclipse:eclipsemvn eclipse:clean清理（删除target目录下编译内容）mvn clean仅打包Web页面文件mvn war:exploded编译项目mvn compile打包发

2016-04-26 16:29:03 262

原创 nutch参考文献地址

杨尚川博客：http://yangshangchuan.iteye.com/ 开源爬虫框架各有什么优缺点：http://www.aboutyun.com/thread-15968-1-1.html#userconsent#搭建Hadoop2.6+Hbase0.98.9+Nutch2.3环境： http://www.xinglongjian.com/

2016-04-26 16:28:07 415

转载 redis.conf的配置解析

redis.conf的配置解析?1234567891011121314151617181920212223242526272829

2016-04-26 16:25:42 687

原创 redis配置文件redis-conf

#包含通用配置 include /home/hadoop/redisCluster/redis-common.conf #监听tcp端口 port 7000#工作目录dir /home/hadoop/redisCluster/7000/#最大可用内存 maxmemory 10g #内存耗尽时采用的淘汰策略: # volatile-lru -> re

2016-04-26 16:24:14 338

转载 redis常用内存优化手段与参数

原文地址：http://www.infoq.com/cn/articles/tq-redis-memory-usage-optimization-storage通过上面的实现上的分析，可以看出redis的内存管理成本比较高，即占用了过多的内存，redis的作者对这点也很清楚，所以提供了一系列的参数和手段来控制和节省内存：首先最重要的一点是不要开启redis的vm选项，即虚拟内存功能

2016-04-26 16:22:13 1750

转载 redis配置文件redis-common.conf

#GENERAL # 默认Rdis不会作为守护进程运行。如果需要的话配置成'yes'# 注意配置成守护进程后Redis会将进程号写入文件/var/run/redis.piddaemonize yes # TCP listen() backlog.## 在高并发环境下你需要一个高backlog值来避免慢客户端连接问题。注意Linux内核默默地将这个值减小# 到

2016-04-26 16:21:42 910

原创手动安装rubygems

1，下载rubygems-2.4.8.tar包，下载地址：https://rubygems.org/pages/download 点击下载TGZ2，tar -zxvf 解压该压缩包3，进入解压目录，执行：ruby setup.rb4，如果出现错误提示说：ERROR：RDoc documentation generator not installed: no such file to l

2016-04-26 16:19:25 12462

转载 Redis配置集群遇到问题及解决方法

配置完所有主节点后,报" ERR Invalid node address specified"由于redis-trib.rb 对域名或主机名支持不好,故在创建集群的时候要使用ip:port的方式redis-trib.rb create ip1:port1 ip2:port2 ip3:port3创建集群时报某个err slot 0 is already busy (redi

2016-04-26 16:19:06 2148

原创 redis集群搭建手册

1,在每台需要安装redis的机器上安装gccyum install –y gcc*2,下载redis最新版本redis-3.0.2.tar.gz，拷贝到每台机器上，然后执行tar -zxvf redis-3.0.2.tar.gz，进入安装完成的目录，make编译，成功编译后执行make install 安装最后安装完成目录如下：/home/hadoop/red

2016-04-26 16:18:13 302

转载 zookeeper3.4.5自动清理日志

zookeeper3.4.5自动清理日志从3.4.0开始，zookeeper提供了自动清理snapshot和事务日志的功能，通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg中配置的，将其前面的注释去掉，根据需要修改日志保留个数：

2016-04-26 16:13:00 435

转载 zookeeper适用场景：zookeeper解决了哪些问题

问题导读：1.master挂机，传统做法备份必然是以前数据，该如何保证挂机数据与备份数据一致？2.分布式系统如何实现对同一资源的访问，保证数据的强一致性？3.集群中的worker挂了，传统做法是什么？zookeeper又是如何做的？分布式系统的运行是很复杂的，因为涉及到了网络通信还有节点失效等不可控的情况。下面介绍在最传统的master-workers模型，主要可以会遇到什

2016-04-26 16:11:00 316

原创 zookeeper集群安装手册

1,修改 zookeeper-3.4.5/conf目录下面的zoo_sample.cfg为zoo.cfg 。通过命令： mv zoo_sample.cfg zoo.cfg并且进一步配置文件的内容如下所示：tickTime=2000dataDir=/home/hadoop/zookeeper/datadataLogDir=/data/hadoop_data/

2016-04-25 11:58:13 260

原创 Storm环境搭建注意事项

去官网下载最新版本的storm：http://storm.apache.org/downloads.html搭建可以参考该文章： http://www.aboutyun.com/thread-6854-1-1.html注意事项： storm.zookeeper.servers:- "datanode01"- "datanode02"- "da

2016-04-25 11:56:33 703

原创 linux设置定时任务

1，crontab -e 编辑添加定时任务2，*/2 * * * * /home/admin/jiaoben/buy/deleteFile.sh 每个两分钟执行一下脚本3，crontab -l 查看该用户下的定时任务4，crontab -u 定某个用户的cron服务5，crontab -r 删除没个用户的cron服务6，cron文件语法: 分小时

2016-04-25 11:43:52 435

转载 rpm命令汇总

RPM是RedHat Package Manager（RedHat软件包管理工具）类似Windows里面的“添加/删除程序”rpm 执行安装包二进制包（Binary）以及源代码包（Source）两种。二进制包可以直接安装在计算机中，而源代码包将会由RPM自动编译、安装。源代码包经常以src.rpm作为后缀名。常用命令组合：－ivh：安装显示安装进度--inst

2016-04-25 11:42:55 226

转载 linux top命令详解

top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。下面详细介绍它的使用方法。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombi

2016-04-25 11:42:16 376

原创 kafka简单安装部署

1，下载kafka二进制包：http://kafka.apache.org/downloads.html2，修改config下的server.properties配置文件： broker.id=1 设置为唯一标示 port=9092 默认端口 host.name=webserver 本机hostname log.dirs=/data/kafka/logs

2016-04-25 11:41:35 292

原创 kafka基本命令

1，./kafka-topics.sh --create --zookeeper webserver:2181 --replication-factor 3 --partitions 1 --topic mykafka2，./kafka-topics.sh --list --zookeeper webserver:21813，./kafka-topics.sh --describe

2016-04-25 11:40:47 266

原创 Github下载代码与常用命令

clone下载代码：1，登录git hub 找打你要下载的代码仓库地址2，拷贝地址，然后到本地命令窗口执行 cd git_hub 目录，然后继续执行git clone xxx.git，靠实现仓库的克隆。3，代码提交： git add . git status 查看提交文件 git commit -m "comment" 提交文

2016-04-25 11:29:36 731

转载 eclipse在线安装ivy和ivyde

在eclipse配置Ivy外加lib管理工具 , 用来导入项目需要的lib包这个工具可以指定需要那个lib，定义在xml里之后，ivy就会自动帮你添加外部包很方便！步骤：1. 下载资源（可能出问题，多google 、多百度无非就是缺了feature对应的plugin)eclipse在install new software输入： http

2016-04-25 11:27:30 3405

原创 eclipse设置反编译

1，下载http://sourceforge.net/projects/jadclipse/files/jadclipse3.3/对应的反编译jar包2，下载jad.exe 将net.sf.jadclipse_3.3.0.jar拷贝到eclipse的plugins目录下；删除eclipse的configuration目录下org.eclipse.update文件，重新启动eclip

2016-04-25 11:26:46 347

原创 eclipse基于ant的build.xml搭建项目

1，new->project->java project from existing ant buildfile然后选择build.xml点击finlsh项目搭建完成

2016-04-25 11:23:05 418

原创 nagios安装

1，去nagios官网下载最新版本安装包：https://www.nagios.org/downloads/2，下载核心包和核心插件包：nagios core和nagios core plugins3，安装说明在下载包下面的点击进入后出现如下界面：点击进入后按PDF文件说明进行安装：4，安装顺序，优先安装core程序，再安装核心插件。5，下载安装中文插件包：ht

2016-04-25 11:17:46 345

原创 Nutch基本命令

1：nutch读取hbase数据导出文本文件：./nutch readdb -dump /data/nutch_db/1108 -crawlId TestCrawl -content会执行一个mr程序，/data/nutch_db/1108是mr的输出路径TestCrawl是hbase表名的前半部分。2： inject inject new urls into the

2016-04-25 11:11:39 363

原创 Nutch2.3+Hbase0.94环境搭建

1，修改nutch-site.xml storage.data.store.class org.apache.gora.hbase.store.HBaseStore Default class for storing data http.agent.name JustinNutchAgent

2016-04-25 11:10:07 332

原创 SOLR安装简单配置

1，从官网下载solr最新安装包：http://lucene.apache.org/solr/downloads.html2，解压压缩包，修改bin目录下的solr.in.sh配置文件： a，SOLR_JAVA_HOME=$JAVA_HOME b，SOLR_HEAP="4096m"设置内存大小，如果有是RAM模式需要根据实际数据量设置内存大小，Increase Java H

2016-04-25 11:08:30 479

原创 solr更新schema.xml后，重新把配置文件注入到zookeeper

1，solr更新schema.xml后，重新把配置文件注入到zookeeper：./zkcli.sh -z Master.Hadoop:2181 -cmd putfile /solr/configs/poi_index_update/schema.xml /data/solr-5.3.1/server/solr/configsets/poi_index_update_configs/con

2016-04-25 11:04:32 4650 2

转载 SOLR缓存调优

缓存在 Solr 中充当了一个非常重要的角色，Solr 中主要有这三种缓存：Filter cache（过滤器缓存），用于保存过滤器（fq 参数）和层面搜索的结果Document cache（文档缓存），用于保存 lucene 文档存储的字段Query result（查询缓存），用于保存查询的结果还有第四种缓存，lucene 内部的缓存，不过该缓存外部无法控制到。通过这

2016-04-25 11:03:33 2874

原创 Solr常用命令

1，./solr start -noprompt 单机启动solr2，集群方式启动：./solr -c -p 8983 -z Master.Hadoop:2181 -s /home/solr-5.3.0/server/solr_navinfo -noprompt3，对某个目录文件添加索引：/post -c gettingstarted docs/ -c 把索引放到

2016-04-25 11:03:04 1410

razorsql7+注册码生成器+注册注意事项

我本次上传的64位的razorsql7的安装版本，安装包里面包含注册码生成器，生成方法是配置本地jdk然后执行：java -jar KeyMaker.jar 就会出现界面，里面有注册码，复制该注册码到razorsql注册界面进行注册。本软件本人亲测没有问题，大家可以试一试。注意：安装注册注意一定要断开网络

2016-12-08