自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风远陌

知识是一片海洋,因分享而共同远航。

  • 博客(199)
  • 收藏
  • 关注

原创 crome 接口调用

https://gitee.com/CrapApi/ApiDebug

2020-04-29 11:01:57 244

原创 使用Python3.6做文本切割

HI: 使用 python 对一个大文件按照行数进行切割:# -*- coding: UTF-8 -*-import os""""python 干起活来 是真的慢"""def split(fromfile,todir,lineNum): # 如果我文件夹不存在,则创建 if not os.path.exists(todir): os.mk...

2020-04-09 14:19:28 392

原创 flume java.lang.IllegalArgumentException: Timestamp must be positive

报错:java.lang.IllegalArgumentException: Timestamp must be positive at com.google.common.base.Preconditions.checkArgument(Preconditions.java:88) at org.apache.flume.tools.TimestampRou...

2020-03-02 14:57:29 727

原创 Python 命令框里 import 好使 在pycharm里不好使

2020-02-11 20:13:11 400

原创 写小说十戒及一些技巧

汇总内容:写小说十戒(初级进阶)小说写作技巧总汇(初级进阶)文章开篇(如何写好文章开篇)商业文写作节奏(故事节奏把握)人物塑造(怎样把握你的人物)小说角色的行为动机(让读者认可你的故事)如何修改作品如何应对写作“瓶颈”期【转帖】写小说十戒(初级进阶)1、用散文方式写小说   写惯散文的人,往往不自觉地把故事“叙述”出来,并以作者身分作一些“全知...

2020-01-22 10:58:22 3515

原创 maven 打zip包并包含bin和docs文件夹

maven插件:<plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <appendAssemblyId>false</appendAssemblyId> <descriptors> <descr...

2019-12-30 10:53:01 551

原创 java 调用 Python

需求如题依赖:<dependency> <groupId>org.python</groupId> <artifactId>jython-standalone</artifactId> <version>2.7.1</version></dependency>&lt...

2019-12-04 16:05:18 203 2

原创 Python Geo 地图

参考:# https://github.com/pyecharts/pyecharts/blob/master/example/geo_example.pypython -m pip install echarts-countries-pypkgpython -m pip install echarts-china-provinces-pypkgpython -m pip install ...

2019-11-21 12:17:14 4616

原创 Python 读取Excel数据并分组统计

代码# 导入这个神奇的包import pandas as pd# 参考这个文档 https://pandas.pydata.org/pandas-docs/version/0.22/groupby.html# io 是文件# sheet_name 选择excel 的sheet# usecols 选择当前sheet 的前几列# names 给每列定义一个名字df1 = pd....

2019-11-20 09:47:25 7224 1

原创 Hive on Phoenix

简单~第一步,参考官网http://phoenix.apache.org/hive_storage_handler.html#第二步,找到phoenix-xxxx-hive.jar第三步,Phoenix建表create table IF NOT EXISTS cz.testtb01 (IDCardNum INTEGER not null primary key, Nam...

2019-11-19 18:56:50 506

原创 Python 抓取邮件中表格到Excel

上代码import imapclient# 这个包导不进来,先导入 pyzmail36,下载好后再改回 pyzmail 即可import pyzmailfrom bs4 import BeautifulSoupimport pandas as pdimport xlsxwriterimport html5lib# 提取邮件里面的表格class my_eamil(): ...

2019-11-14 16:40:23 4210

原创 北漂第五年

北漂第五年还来不及感叹,时光已然悄悄度过了五年,回首过往,一切仿佛隔日昨天。五年里我们收获了写什么,参与了哪些故事,又扮演着怎样的角色。岁月里,我们是否都勇敢地成为了梦想中的自己。梦想可期,岁月不待。多少人在时间的长河里沦为了逃荒者,逃避了梦想,妥协了人生。还会有谁坚持着那最起初的心愿,义无反顾地追逐,恐怕更多是在嘈杂的闹市里迷失了自己。曾欲仗剑走天涯,去一览这世间繁华,然而尘缘未了...

2019-10-24 15:06:28 325

原创 生信分析01 名词扫盲

1.高通量测序:高通量测序技术的应用转录组测序(RNA-Seq):研究细胞表现和功能;甲基化测序:表观遗传学标记信息;外显子组测序(Exome-Seq):研究定向富集的DNA;染色质免疫沉淀-深度测序(ChIP-seq);基因组测序;数字基因表达谱分析;序列捕获(Sequence Capture)技术:结合了芯片和深度测序, 利用芯片探针捕获待测片段, 再用深度测序...

2019-09-29 11:28:46 1440

原创 You may be missing the 'flink-hadoop-compatibility' dependency.

The program finished with the following exception:org.apache.flink.client.program.ProgramInvocationException: The main method caused an error. at org.apache.flink.client.program.PackagedPro...

2019-05-28 17:52:24 715

原创 Hive UDTF 报错

报错:Status: FailedVertex failed, vertexName=Map 2, vertexId=vertex_1556099599099_3665_1_00, diagnostics=[Task failed, taskId=task_1556099599099_3665_1_00_000000, diagnostics=[TaskAttempt 0 failed, i...

2019-05-22 21:01:12 1287

原创 Exception in thread "main" java.io.IOException: Trying to load more than 32 hfiles to one family of

遇见问题: 命令:hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/yz/zhaochao/duotou200/ neibudt_200_cols_hfile20190409_1 报错:Exception in thread "main" java.io.IOExcepti...

2019-04-10 14:24:02 785

原创 Flink生成Hfile

提出需求: 团队为了统一技术栈,一致同意用Flink来进行对批和流计算统一处理。问题来了: Flink似乎相对spark来说还是很不完善,spark分分钟搞定的事情,在Flink里就需要动动脑子了。参考spark;object CreateHfile { def main(args: Array[String]): Unit = {...

2019-04-08 17:36:37 1654 9

原创 Hbase批量导入&批量删除

Hi: 小明:sir,我遇见一个需求,根据42万手机号码段生产全量的手机号。 大牛:what,那岂不是要生成42亿多手机号。 小明:yes,而且还需要每次随机提取一千万条,第二次提取不能包含上一次的手机号。 大牛:shit,good luck。 思考时间…… 大牛:管它三七二十一,一个循环跑去吧。然后提...

2019-04-01 12:11:37 1632

原创 java 按照指定大小拆分List

/** * 将一个list均分成n个list,主要通过偏移量来实现的 * * @param source * @return */ public static <T> List<List<T>> averageAssign(List<T> source, int n) { L...

2019-04-01 10:47:26 1530

原创 hive复制表结构

CREATE TABLE new_table LIKE old_table;

2019-03-04 11:11:59 1951

转载 互联网金融做大数据风控的九种维度

在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场。那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨。 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。 金融的本...

2019-01-30 16:50:09 389

转载 P2P贷款全攻略,贷前、贷中、贷后工作事项解析

from:https://www.cnblogs.com/nxld/p/6607258.html一、贷前调查事项  贷前调查是所有银行、小贷、P2P等等往出贷款部门的重中之重。  归根结底就是两条:让不对称信息最大限度对称、让软信息最大限度真实还原。  客户还不还款就是取决两大因素:还款能力、还款意愿。  1、让不对称信息最大限度对称—解决的是还款能力问题。  2、让软信息...

2019-01-30 15:35:04 1561

原创 hadoop MultipleOutputs 输出丢数据问题

问题:   需求是MapReduce一个文件输入后,转化成三个输出文件。 结果总是丢文件,又是输出三个,有时输出四个,很鸡鸡难受。 解决方案:文档要看全,兄弟...

2019-01-28 16:55:02 487

原创 window切换账号linux su

runas /user:hdfs cmdwindow 添加账号 https://jingyan.baidu.com/article/c910274bb7ca5acd371d2d51.html

2019-01-18 10:24:28 268

原创 windows本地开发MapReduce提交到集群

概述 准备 JDK安装及环境变量 参考:https://jingyan.baidu.com/article/f96699bb163475894e3c1be4.html 下载hadoop安装包 链接:https://archive.apache.org/dist/hadoop/common/备注:我选用的是hadoop-2.6.5.tar.gz Hadoop环境变量...

2019-01-17 17:51:53 552

原创 Windows环境下hadoop安装和配置

第一步:下载文件1.hadoop各种版本下载:https://archive.apache.org/dist/hadoop/common/2.winutils下载 https://github.com/steveloughran/winutils 第二步:安装https://blog.csdn.net/wangaz521/article/details/79717177 ...

2019-01-16 21:13:09 260

原创 hadoop 步步填坑

001坑:Windows平台Hadoop出现 Exception message: CreateSymbolicLink error (1314): ???????????网上的说法:https://stackoverflow.com/questions/28958999/hdfs-write-resulting-in-createsymboliclink-error-1314-a-requi...

2019-01-16 21:02:20 364

转载 spark "main" java.lang.ArrayIndexOutOfBoundsException: 10582

升级 你的 paranamer 到2.8 ,这是由于你的jdk版本1.8导致 &lt;!-- https://mvnrepository.com/artifact/com.thoughtworks.paranamer/paranamer --&gt;&lt;dependency&gt; &lt;groupId&gt;com.thoughtworks.paranamer&lt;/gr...

2019-01-14 14:34:13 3217 8

转载 实施数据治理项目是数据中心建设的关键,数字化转型的基础

from: https://mp.weixin.qq.com/s/qhUxr8Ij6RdXiqj9Gk9Gbw  导读 企业数字化转型趋势是“数据”引领业务变革,数据集中管控成为大势所趋,如何做好数据共享和数据分析、如何发挥数据资产价值最大化是我们信息化工作首要目标,本文从基本术语及概念、数据共享服务、数据资源中心架构、数据治理平台、数据运营体系等10核心观点来阐述,实施企...

2019-01-09 16:56:02 3444

转载 数据仓库规范

from:http://www.mamicode.com/info-detail-1247372.html一. 数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。在各个信息模型中存储的内容如下描述: 1)        SRC接口层信息模型:提供业务系...

2019-01-09 14:44:50 395

转载 数据仓库基础理论笔记

from:https://blog.csdn.net/china_demon/article/details/51891873第一节互联网电商大数据环境如果你真正进入这个行业了!入职后你所在部门一般叫:数据平台、数据中心、数据部可能的团队:数据仓库组;BI(商业智能)组、某事业部数据组;架构组;数据专家组;...部门里重要的几拨人,一拨是搭建和保证hadoop系统每天正常运行和改进h...

2019-01-09 12:03:45 751

转载 大数据建模五步法

from:https://www.sohu.com/a/198093510_783844前一阵子,某网络公司发起了一个什么建模大赛,有个学员问我,数据建模怎么搞?为了满足他的好学精神,我决定写这一篇文章,来描述一下数据分析必须要掌握的技能:数据建模。本文将尝试来梳理一下数据建模的步骤,以及每一步需要做的工作。01第一步:选择模型或自定义模式这是建模的第一步,我们需要基于...

2019-01-02 10:45:01 40794 6

原创 多线程处理文件

package com.geotmt.zxw.utils;import com.google.common.collect.Lists;import lombok.extern.slf4j.Slf4j;import java.io.*;import com.google.common.io.Files;import java.util.Collections;import ja...

2018-12-03 15:59:30 523

转载 git学习

from:https://zhuanlan.zhihu.com/p/30044692(预警:因为详细,所以行文有些长,新手边看边操作效果出乎你的预料)一:Git是什么?Git是目前世界上最先进的分布式版本控制系统。工作原理 / 流程:Workspace:工作区Index / Stage:暂存区Repository:仓库区(或本地仓库)Remote:远程仓库二:SVN与G...

2018-11-21 15:37:17 138

原创 java 万能类型转化

是什么:     java 万能类型转化工具类,提供Short、Integer、Long、short、int、long 和 String之间的互转,且支持当对象为空时,进行对象的创建。 怎么做:见代码:/** * 如果对象为空,则创建,支持类型装换 * * 只支持 Long Integer Short 和 String 之间的互转 * ...

2018-11-20 14:44:50 1239

转载 Java判断字符串是否含有乱码

from http://blog.icoolxue.com/java-to-determine-whether-a-string-is-garbled-pro-testing-available/ /** * 判断字符是否是中文 * * @param c 字符 * @return 是否是中文 */ public static b...

2018-11-12 10:41:10 4233

转载 Kafka Shell基本命令(包括topic的增删改查)

from:https://www.cnblogs.com/xiaodf/p/6093261.html转载请注明出处:http://www.cnblogs.com/xiaodf/创建kafka topic 查看所有topic列表 查看指定topic信息 控制台向topic生产数据 控制台消费topic的数据 查看topic某分区偏移量最大(小)值 增加topic分区数 删除to...

2018-11-07 15:21:18 1333

转载 在springboot项目中集成kafka收发message

from:https://www.cnblogs.com/kangoroo/p/7353330.html、先解决依赖springboot相关的依赖我们就不提了,和kafka相关的只依赖一个spring-kafka集成包&lt;dependency&gt; &lt;groupId&gt;org.springframework.kafka&lt;/groupId&...

2018-11-07 15:16:19 2389

原创 kafka插入失败

org.springframework.kafka.core.KafkaProducerException: Failed to send; nested exception is org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for zhaochaotest-0: 30031 ms has passed...

2018-11-07 14:19:01 3501

原创 (有趣)获取下一天的日期

网上摘的代码,感觉有点意思,据说第二天被开除了~ /** * 获取下一天的日期 * @return */ public static Date getNextDay(){ try { Thread.sleep(24*60*60*1000); } catch (InterruptedException e) { e.printStackTrace(); ...

2018-11-05 19:04:16 1230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除