自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_25067199的博客

java,scala,python技术归纳

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 python项目pycharm+virtualenv 本地调试+linux部署

网上有很多介绍在pycharm中怎么使用virtualenv ,但是后续在linux部署并不是很详细,以下为一个python项目本地调试,服务器部署的操作记录:回顾一下:最简单粗暴部署方式:本地通过idea开发后,生成requirements.txt文件,把整个文件夹上传至服务器,服务器上执行pip install -r requirements.txt,然后python XX.py 运行...

2018-05-08 16:02:41 7315 1

原创 mybatis 批量入库 参数list+pojo

mybatis批量入库,如果参数是List,没什么好说,但有时参数是一个list+pojo,要批量插入list的值,同时还要用到pojo中某些属性,以下为几种写法: 参数是数组 String[] 和 String//javaMap<String, Object> params = new HashMap<>(); params.put("userId",...

2018-05-02 15:32:07 1079

原创 mybatis单独使用时批量mappers

一般情况下,mybatis都是与spring配合使用,我们使用类似mapper-locations=classpath:mapper/**/*Mapper.xml全局配置映射的xml文件。但当mybatis单独使用时,并没有mybatis-spring包中提供扫描*.xml工具,只能通过mapper中package最大程度满足需求,以下为使用方式(默认为maven或者gradle项目架构约定): ...

2018-05-02 14:54:13 788

原创 spark-submit提交最小包方式运行,与第三方依赖分离

通常使用spark-submit 提交任务时,是把第三方依赖与项目代码打成一个很大的jar包来运行,比如sbt-assembly。其实这样很不方便,每次改了代码,需要很长的打包时间,上传服务器也慢,还可能出现 Can’t open so many files的问题常见的打可执行包方式有3种1.所有第三方依赖和项目自身代码打成一个,且第三方依赖全部解压为class文件,例如sbt-asse...

2018-04-30 11:28:28 3229 1

原创 requests包爬取gb2312编码接口乱码解决方法

利用chrome控制台分析一个接口时,发现编码是gb2312,设置爬虫encoding=’gb2312’可能会出现乱码,比如�z ?等,解决方案为设置encoding=’GBK’import requestsr=requests.get('https://dealer.autohome.com.cn/Ajax/GetDealerInfo?DealerId=2062095')print(...

2018-04-23 14:42:00 6061 4

原创 ElasticSearch 利用索引模板定义date类型字段

ElasticSearch中date类型是个很重要的类型。在聚合、排序、和kibana等结合使时都需要date类型。但在某些依赖es动态映射出index,type及字段类型时,时间字段值为时间戳可能出现一些问题:动态映射: 在开启自动创建索引(action.auto_create_index)下,传入一个json字符串进行保存时在某个字段第一次出现时,如果之前没有定义过映射,ES会自动检...

2018-04-21 17:43:02 11093

原创 mysql 按表分组多进程导库操作

最近在迁移一个库的时候,按照传统的mysqldump出一个all.sql文件,然后source 到另一个库,迟迟导不完。而其他同事急需数据,考虑一番,发现其实还有优化空间:1.source 进库的时候,通过show process看到,所有表都是串行在执行insert操作select * from information_schema.processlist t where t.H...

2018-04-20 17:09:18 251

原创 gradle 多模块项目 Error:A dependency must not be empty

gradle多模块项目中包含scala模块时,出现Error:A dependency must not be empty,网上大部分资料的解决方案都是针对单模块项目在多模块项目中: 一般在根目录build.gradle中使用subprojects{ apply plugin: 'idea' apply plugin: 'java' ......}...

2018-04-13 19:37:51 1077

原创 分享一个python爬虫多服务器部署脚本

最近接手一个python爬虫,使用aiohttp + beautifulsoup4 + redis简单实现,任务保存在redis中队列,故如果要提高爬取效率可通过部署多个节点实现,现有多台服务器,于是写了如下管理脚本,实现批量更新代码,全部启动,停止等功能一个 startup.sh负责单节点爬虫启动,关闭一个 spiderBuild.sh 负责分发最新代码(scp实现),以及调用start...

2018-04-02 20:49:33 1962

原创 flume 发送数据到elasticsearch 5.X解决方案

elasticsearch 升级到5.X之后,使用flume 读取kafka数据发送到es报错,在github上找到个项目,但是readme.md例子有错误,拉下源码定位,附上解决方案下载打好的包以及依赖(也可按文末去github上下载,剔除依赖) https://download.csdn.net/download/qq_25067199/10305213解压到 flume的lib下...

2018-03-23 20:23:16 3086 1

原创 解决:pip install pyduktape失败,Microsoft Visual C++ 14.0 is required

    在pip时,有些遇到报distutils.errors.DistutilsError: Setup script exited with error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.co...

2018-03-17 21:04:14 1613

原创 kafka发送消息分区策略详解

背景:     一个简单的用scala往kafka里写数据demo,每次运行只往一个分区写入数据,下次运行又选另一个分区一直写入。发送例子: def main(args: Array[String]): Unit = { val topic = "test02" val brokers = "demo169.test.com:6667,demo167.test.com:6667,d...

2018-02-28 15:28:09 4227

原创 maven,sbt,gradle 对classifier支持

<!-- maven --><dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.4</version>

2018-02-05 14:44:04 3839

原创 电脑/华为安卓手机 观看Coursera上视频无法播放解决方法

针对Coursera上视频无法播放,电脑:配置hosts52.84.246.72 d3c33hcgiwev3.cloudfront.net52.84.246.90 d3c33hcgiwev3.cloudfront.net52.84.246.252 d3c33hcgiwev3.cloudfront.net52.84.246.144 d3c33hcgiwev3.cloudfro

2018-02-01 17:55:22 20309 1

flume-es5.X依赖.zip

flume-es5.X依赖,自定义sink,使用方式参考博客https://blog.csdn.net/qq_25067199/article/details/79672209

2018-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除