自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

非洲王子

做个给自己看的东西

  • 博客(52)
  • 收藏
  • 关注

原创 linux处理 bom头文件

打开qingke数据文件的时候,发现同一个车号经过去重会出现两次。在linux系统中vim编辑器打开文件会发现有些数据起始位置有如下字符<feff>。经查明是bom文件在捣鬼。处理方法是sed -i 's/\xef\xbb\xef//g' honda.csv恶心...

2019-08-20 14:37:39 220

原创 python3读写csv文件,通配符路径下寻找文件

python3读文件def csv_read(path): data = [] with open(path,'r',encoding='utf-8-sig') as f: reader = csv.reader(f,dialect='excel') for row in reader: data.append(r...

2019-08-20 14:31:09 986

原创 2019.08.16

持有封基: 华宝油气和石油公司没关系,是一揽子石油公司的股票,不是石油。今年石油价格是涨的,但是华宝油气跟踪的XOP指数是跌了,根本是负相关。这个基金跟踪的是美股,你用做A股的思维方式去做,很容易失败。不是石油价格。华宝两大坑 1,。华宝油气 2.标普红利标普红利对市值做了中性化处理,但这两年的风格是大市值,包括神奇公式也是做了市值中性化的,今年的表现都不好...

2019-08-16 08:42:07 134

原创 2019.08.14

持有封基(聪明的定投 作者):我是看长期的企业ROE的,去年选招商白酒就是基于这样理由,但没想到今年涨了那么多现在主流选基金是看低PE,但我总觉得低PE恢复到高PE只是短期赚了波动的钱,长期还是要看ROE选ROE而且最好是趋势向上的,银行就是因为趋势向下才给出那么低的估值,还有要剔除周期股的基金...

2019-08-14 13:59:58 115

原创 2019.08.14

1.在nodepad++中用^ $匹配替换可能失败,换成sublime可能会有奇效。

2019-08-14 13:55:20 68

原创 spark验证文件夹下文件数量

有个需求,需要判断文件夹下是否有parquet文件,但是涉及到中间有一层/id=vin号/文件目录,无法用通配符、由此转化为判断hdfs文件夹下文件数量来判断。代码为 val hadoopfs: FileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration) val file = hadoopfs....

2019-08-12 13:37:55 889

原创 sed命令的应用

用 sed -i 's/0.995/0.9/g' testFile把testFile文件中的0.995替换为0.9-i  直接修改读取的档案内容,而不是由屏幕输出s  取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!g 获得holding buffer中的内容,并替代当前pattern space中的文...

2019-08-12 13:24:46 122

原创 2019.08.12

解决一个恶心的问题。spark程序在从hdfs中读parquet文件写入mysql中报错了。出现了该错误java.sql.BatchUpdateException: Incorrect integer value: 'LHGJ11835K8000155' for column 'id' at row 1输入路径为/user/houzhq/test/AD/charge_outp...

2019-08-12 10:39:26 169

原创 2019.08.08

今天是对算法输出的异常检测程序进行打包测试,将结果输出到mysql的exception_list表中。spark2-submit \--jars dependences.jar \--class "MainApp.MainApp" \--files settings.properties,threshold.properties \--driver-memory 15g \--ex...

2019-08-08 14:24:00 77

原创 linux shell脚本本地文件put到mysql

#/bin/bashecho "import start"mysql -h192.168.2.93 -uroot -preachauto bcm-pf -P3306 --local-infile=1 -e "load data local infile '/data/houzhq/shell/exception_code.csv' into table exception_code chara...

2019-08-08 14:05:13 549

原创 理解case class的用法

case class PiecewiseInfo(separateValues: List[Double]=List(0.0), allowedValues: List[(Int, Int)]=List((-1,1)) )以此 case class 为例,探讨一些特性。知识结构来自https:/...

2019-08-08 11:18:35 8568

原创 2019.08.06

今天重新修改了一版charge切片逻辑NewChargeSlice 是基于原来的charge的注释的一版package BatteryCareSparkJob.chargesliceimport java.text.SimpleDateFormatimport java.util.{Date, Properties}import BatteryCareSparkJob.char...

2019-08-06 20:10:02 209

原创 spark 编写规范及技巧

1.为了凸显规范及逼格,使用入口类。/** * @Author: Houzhq * @Date: 2019/6/11 15:37 * @Version 1.0 * @Note */object EntranceA { def main(args:Array[String]): Unit ={ args.toList match { case ta...

2019-06-17 16:49:52 951

原创

代码大全 设计模式 数据结构与算法分析 重构

2019-06-11 14:35:23 74

转载 2019.05.24 对于xgboost算法的了解

https://www.jianshu.com/p/7467e616f227以此为学习路径 开始了解xgboosthttps://blog.csdn.net/laobai1015/article/details/830591781.先了解一下什么是分类回归分类classification回归 regression分类模型和回归模型本质一样,分类模型是将回...

2019-05-24 15:57:49 284

原创 2019.05.24 工作

在BatteryCareSparkJob中写了一个object TestIntegrateSplit 用于对/user/log/integrate数据进行切分扩列出现了个问题无法执行自己定义的任务日志中有个细节我忽略了,在求array的最大值 array.max的时候 提示empty.max。经过提示想到,在原始数据中可能存在空行,所以报错。经过修改,加入判断逻辑,判断该array...

2019-05-24 08:43:03 85

原创 2019.05.20 java

今天想接着看java源码 hashmap先把之前看的红黑树给结一下https://www.cnblogs.com/CarpenterLee/p/5503882.htmlhttps://blog.csdn.net/jy1690229913/article/details/83546134https://blog.csdn.net/jy1690229913/article/deta...

2019-05-20 09:04:02 116

原创 2019.05.17 spark scala

查看spark源码sparkSession在Spark1.6中我们使用的叫Hive on spark,主要是依赖hive生成spark程序,有两个核心组件SQLcontext和HiveContext。这是Spark 1.x 版本的语法//set up the spark configuration and create contexts val sparkConf = new ...

2019-05-17 10:08:43 107

原创 spark sql 源码杂谈

查看spark sql 源码从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作 Parser 解析 SQL,生成 Unresolved Logical Plan 由 Analyzer 结合 Catalog 信息生成 Resolved Logical Plan Optimizer根据预先定义...

2019-05-16 16:06:22 299

原创 2019.05.16

看到哪写到哪。针对未来发展,和面试之前的准备。java 字符串hashcode 哈希码的原理 public int hashCode() { int var1 = this.hash; if (var1 == 0 && this.value.length > 0) { char[] var2 = this...

2019-05-16 10:54:21 74

原创 spark提交到集群的命令

先在idea中maven install 打jar包[houzhq@agent sparkjob]$ spark2-submit --class Sparkjob.count --name countownerjob --num-executors 5 --executor-memory 6G --driver-memory 6G --master yarn --deploy-mode clu...

2018-12-17 09:40:10 533

原创 trip表中的mysql语句

 求一辆车在此表中的所有出现天数和经过过滤后全部的坐标目的地数SELECT count(DISTINCT from_unixtime(start_timen,'%Y-%m-%d')) days ,count(DISTINCT FORMAT(lon,4),FORMAT(lat,4) ) loca, vin from test GROUP BY vin;   ...

2018-12-17 08:54:02 135

原创 完成假数据任务

 mysql  语句 select  count(DISTINCT FORMAT(lon,4),FORMAT(lat,4) ) a,vin,from_unixtime(start_timen,'%Y-%m-%d') FROM car_trip_info_tmp GROUP BY vin,from_unixtime(start_timen,'%Y-%m-%d'); 目前统计出 一辆车在...

2018-12-14 11:20:39 96

原创 flume 启动命令

bin/flume-ng agent -c conf -f /root/flume-bak/conf/flume-test.conf -n a1 -Dflume.root.logger=DEBUG,console

2018-12-13 18:17:27 1549

原创 python json.loads和json.dumps

json.dumps : dict转成str     json.dump是将python数据保存成jsonjson.loads:str转成dict          json.load是读取json数据

2018-01-16 09:44:05 144

原创 docker创建容器

docker run -d -p "3811:3810" -v"/etc/localtime:/etc/localtime" crawler_disease-2018-01-10暴露端口并让容器时间和本地时间一致

2018-01-16 09:29:48 153

原创 python 创建多个线程并启动

创建多个线程并启动这些线程          th_num : 15th_num = conf["crawl_threads"]self._thread_list = []self._thread_states = [None,] * th_numfor tid in range(th_num): th = threading.Thread(target=self.cr

2017-11-09 11:16:47 2842

原创 2017.10.16 利用Xshell登录学校服务器

准备登录北民大的服务器进行测试工作。1.安装VM虚拟机安装win72.在https:/ywsj.nun.edu.cn登录3.点击运维下载,点击xshell运维下载4.自己下载xshell工具5.将在xshell运维下载中下载的xshell.tar解压,将USM文件夹放在c:\Users\hzq\Documents\NetsSarang\Xshell\Session中。选择服务器

2017-10-16 13:57:52 1507

原创 2017.10.16 Scala中val和var的区别

Scala有两种变量,val和var。val就不能再赋值了。与之对应的,var可以在它生命周期中被多次赋值。

2017-10-16 09:07:14 183

原创 2017.10.13 学习写maven java web项目

看了同事的user-agent-service项目,决定学习一下用idea写一个maven java web项目 。1. Maven简介    相对于传统的项目,Maven 下管理和构建的项目真的非常好用和简单,所以这里也强调下,尽量使用此类工具进行项目构建, 它可以管理项目的整个生命周期。   可以通过其命令做所有相关的工作,其常用命令如下:    - mvn compi

2017-10-13 11:24:09 222

转载 2017.10.13 shell rmp命令详解

http://www.jb51.net/article/75339.htm感谢RPM是RedHat Package Manager(RedHat软件包管理工具)类似Windows里面的“添加/删除程序”rpm 执行安装包二进制包(Binary)以及源代码包(Source)两种。二进制包可以直接安装在计算机中,而源代码包将会由RPM自动编译、安装。源代码包经常以src

2017-10-13 10:02:31 257

转载 2017.10.13 shell中 function local

http://blog.csdn.net/wangjianno2/article/details/50200617 感谢shell中局部变量及local命令local一般用于局部变量声明,多在在函数内部使用。(1)shell脚本中定义的变量是global的,其作用域从被定义的地方开始,到shell结束或被显示删除的地方为止。(2)shell函数定义的变量默认是global的

2017-10-13 09:45:14 706

转载 2017.10.12 shell sed命令详解

http://www.cnblogs.com/mchina/archive/2012/06/30/2570523.html 感谢原作者流编辑器sed8.1 sed简介sed是stream editor的缩写,一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区

2017-10-12 11:22:51 306

原创 2017.10.12 shell chmod 文件权限详解

chmod 要修改哪些用户的特权:字符含义a修改所有用户的特权g修改组用户的特权o修改其它用户的特权u修改所有者的权限执行什么操作:字符含义-删除当前的权限=替换当前的权限+增加当前的权限

2017-10-12 10:17:27 306

原创 2017.10.12 Dockerfile ENV命令详解

FROM 10.80.1.156:5000/deta/hadoop-base:2.6.5 //基于哪个镜像来做业务镜像MAINTAINER libh ENV NLP_SERVICE 10.252.0.55 //设置项目的依赖,以环境变量的方式注入到镜像中ENV ZIMO_IP 10.80.1.234ENV MYSQL_HOST 10.80.1.234ENV MYSQL_US

2017-10-12 10:02:08 1555

原创 2017.10.11 shell脚本入门教程

转自http://www.jb51.net/article/28514.htm 感谢原作者建立一个脚本程序必须以下面的行开始(必须方在文件的第一行): #!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。当编辑好脚本时,如果要执行该脚本,还必须使其可执行。   要使脚本可执行: chmod

2017-10-11 09:25:54 279

原创 2017.10.10 shell中的日期问题

shell中的日期问题,要彻底弄清楚。写一个测试脚本test.sh首先是单引号 双引号的问题。单引号将变量和特殊字符括起来将失去原有的意义,而只作为普通字符解释。双引号括起来后特殊字符将保持原有的意义,其余的作为普通字符解释。#!/bin/sh. ~/.bash_profilesource /etc/profilecurrent_day=date +%Y%m%d

2017-10-10 10:25:41 329

原创 2017.09.29 shell中数据库的填写 docker-compose参数

打onlinecategorylocationjoin的docker镜像,写docker-compose.yaml#!/bin/bash. ~/.bash_profilesource /etc/profilecurrent_day="`date +%Y%m%d`"HOME=/work/app/onlinecategorylocationjoinsource $HOME/bi

2017-09-29 17:55:05 243

原创 20170928 使用网页管理集群 按行读取写入useragent txt文件

根据20170901---20170903的position数据分析useragent

2017-09-28 17:52:05 328

原创 2017.09.26 idea noclassfound问题 mr-analysis-task中的url2category urlutil重写

更改完获得uaid方法在本地运行报错,noclassfound,经过高手指导,发现原因是在pom.xml文件中,有的依赖Jar包的作用域模式为provided。这个模式默认你的环境中有这个jar包,所以就不再自动加载了。经过本地测试url2categorymapreduce,输出数据和原程序一致,useragentid一列数据为  1 其他   2 苹果手机  3 安卓手机  4 PC

2017-09-26 17:31:12 197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除