自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

Python SQL ETL .net 数据挖掘

  • 博客(371)
  • 资源 (8)
  • 论坛 (26)
  • 收藏
  • 关注

原创 零售行业O2O的研究

零售行业,特别是快销行业的O2O最近很火,本文讲一下O2O中最经典的模式“O2O下行”即线上to线下的一些总结。O2O下行就是指线上 下单,线下门店来完成销售的一种模式,从上到下,所以叫下行。反过来就是上行。下行又可以进一步细分,为了方便对比,我们把传统的EC线上销售模式也纳入表格的比较范围:类别 库存位置 判定逻辑 配送模式 简介 纯EC EC仓 EC仓有货 EC仓发货到顾客收货地址 O2O EC仓 EC仓有货 EC.

2021-01-15 16:58:16 38

原创 NLP和感知机

最近在看Hanlp作者的一本书,讲到了感知机,这里简单说下。感知机本质就是一个线性函数,很像一个神经网络里的一个神经元。不同点是神经元有一个激活函数,而感知机就是通过结果的正负来做二分类。感知机的损失函数,或者说惩罚函数,就是对于误分类的样本,希望他们的感知结果的绝对值总和越小越好。选择这个惩罚函数的原因是”它是可导的”,可以梯度下降到的一个极小值。完成感知机的训练后,用感知机的感知结果和,用它代替HMM模型中的概率距离和,还是用维特比算法求最小路径,就能得到正确的分词结果。..

2021-01-07 11:59:58 24

原创 pyhanlp 自定义词典操作

在代码中编辑自定义词典CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")CustomDictionary.add("代行", "nnt 1999")CustomDictionary.add("李紫文", "nr 1")CustomDictionary.add("胡浩洋", "nr 1")强制 优先自定义词典HanLP.newSegment()\ .enableNameRecogni

2020-12-30 19:20:02 9

原创 查看linux上java内存情况的相关命令

Java 8 takes more than1/64thof your physical memory for yourXmssize(Minimum HeapSize) and less than1/4thof your physical memory for your-Xmxsize(Maximum HeapSize).默认最大是1/4, 默认最小是1/64的物理内存。Java 8 takes more than1/64thof your physical memory fo...

2020-12-15 15:20:57 84

原创 grpcio (python) 初探

grpc 是一个 google开源的 rpc库,支持多种语言,本文讲python版本的grpc。安装:pip install grpciopip install grpcio-tools开发顺序:1. 首先要定义prototype文件。定义好rpc的函数、输入参数,返回参数。示例如下:syntax = "proto3";message DomoPushRequest {// 定义请求数据 string digest = 1; string conten.

2020-12-07 16:15:27 88

原创 linux 命令行连接 PostgreSQL

linux下连接PostgresSQL的命令行工具是 “psql”在这个页面获取下载安装的命令行:https://www.postgresql.org/download/linux/redhat/头两行都要运行,先装repo,再装postgresql-sever安装后就可以运行psql。psql连接语句示例:(启用SSL)psql "sslmode=verify-full sslrootcert=/path/of/cert host=host.ip dbname=dbname us

2020-12-01 18:33:04 332

原创 Linux 服务器上 配置 Oracle 客户端和sqlplus

本文针对Oracle12c在Linux上用命令行访问Oracle数据库要装两个东西一个是Client, 一个是Sqlplus。Client是类似驱动的东西,Sqlplus则是sql的输入界面(CLI)Oracle 12的下载在这里:https://www.oracle.com/database/technologies/instant-client/linux-x86-64-downloads.html以zip安装包为例解压缩到某个目录后,就是要配置一个配置文件和环境变量了参考:

2020-11-30 17:40:59 74

原创 mysql utf-8中文乱码

mysql utf-8中文乱码,服务器上配置了“character_set_server | latin1 ”, 怎么办?可以在见表的时候指定表的字符编码。create table wechat_report(report_id bigint not null auto_increment,date_id int,ver_id int,open2all int,html_report longtext,primary key (report_id) )ENGINE=InnoDB..

2020-11-04 14:22:31 28

原创 Zeppelin 中使用 credentials 隐藏 代码段中的敏感信息

如下图:1. 配置credentials2. 配置要使用的解释器,加入一个配置项:injectCredentials3. 在代码中用 {entity名.user} 和{entity名.password} 来使用敏感信息。示例图片中entity名为aaa

2020-09-27 19:04:35 102

原创 关于linux账户的提权、免密sudo和 kerberos联动

linux普通用户获取root级别权限,有两种方法:一个提权,即编辑 /etc/passwd,把自己的uid改成0,uid可以直接用命令id查看 还一个sudo,即编辑 /etc/sudoer(等效于命令 visudo),把自己加入到可以sudo的用户列表,还可以配置免密sudo另外在有配置kerberos体系的系统中,理论上每个linux用户在kinit后应该有独立的kerberos账号,如果该linux账号是经过“提权”的,可能会发生kerberos账号被串用的情况...

2020-08-26 11:15:58 71

转载 windows 实现 java1.6和 java1.8 切换

https://blog.csdn.net/asd051377305/article/details/81879872问题背景公司项目中应用到的jdk环境为1.6,最近在家学习IntelliJ IDEA中sdk多环境配置时,想安装Jdk1.8,作为学习基础。那么问题来了,公司项目扩展不支持jdk1.8,为了既能满足公司项目开发环境,又能满足学习jdk1.8的需要,当然不能每一次都进行jdk的安装和卸载,需要探索另一种新方法。分析问题为了多快好省的解决当前的问题,我的想法是在windows中同时

2020-08-11 18:38:35 109

原创 CDH 添加 新节点 拾遗

1. 查询repository的http地址: 找一台master节点运行如下命令。cat /etc/yum.repos.d/cloudera*

2020-08-04 15:41:10 49

原创 azkaban的用户配置和重启 笔记

假设azkaban安装在:/usr/local/azkaban/配置用户:编辑/usr/local/azkaban/azkaban-web-server/conf/azkaban-user.xml权限列表:ADMIN Grants all access to everything in Azkaban.READ Gives users read only access to every proj...

2020-07-16 17:52:21 156

原创 uwsgi + webpy 部署教程

uwsgi安装:yum install uwsgi-plugin-pythonINI示例:[uwsgi]http-socket=:9090plugin=pythonwsgi-file=/home/fr-renjie.wei/selfquerydlk/index_wsgi.pythreads=2processes=4master=Trueuid=linuxuserna...

2020-05-06 19:25:18 152

原创 Zeppelin 实现 iframe 分享的相关问题

Zeppelin制作的图标可以生成 iframe 进行分享,但是在实践过程中会遇到几个坑。1. X-Frame-Options参考https://zeppelin.apache.org/docs/0.7.3/security/http_security_headers.html修改zeppelin-site.xml<property> <name>ze...

2020-04-20 11:08:04 325

原创 Apache Zeppelin 的 shiro.ini 简单配置说明

shiro 本身也是一个apache项目。shiro.ini 位于 Zeppelin 的 conf 文件夹下。[users]segment 配置用户名密码和role[roles] segment 配置roles如果shiro 和 LDAP或者window AD有关联,可以在roles里填组名,如果没有,就是 “rolename = *”[urls] segment...

2020-02-10 16:55:55 355

原创 Kubernetes (K8S) 学习笔记

Kubernetes 以下简称 k8s,是类似hadoop中yarn的存在,对大规模集群进行创建、删除、升级、扩容的一层组件。微软Azure官方的教程:链接: https://pan.baidu.com/s/1AM6eq80Y72TuVF1yFXS5CQ 提取码: j363基本元素:1. pod包含一个或多个container, 一个完整的app可以有多个pod2. depl...

2020-02-05 23:21:33 158

转载 spark 运行关键参数

1.num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优...

2020-01-02 18:11:20 71

原创 azcopy linux 安装使用说明(blob)

azcopy 有过一次大的命令行接口更新:7.x的版本 命令形如: azcopy --source .... --destination ...10.x的版本 命令形如:azcopy copy10.x的版本有子命令安装说明:wget -O azcopy.tar.gz https://aka.ms/downloadazcopy-v10-linuxtar -xf azc...

2020-01-02 12:15:52 945

原创 spark 运行 xgboost 脱坑记

坑:Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse vector,造成xgboost报错示例代码:val schema = new Struct...

2019-12-30 18:01:47 557

转载 Spark Xgboost 分布式运行原理

参考xgboost官网文章:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.htmlParallel/Distributed TrainingThe massive size of training dataset is one of the most significant characteri...

2019-12-26 14:43:10 300

原创 使用 pyarrow 将parquet转成spark能用的parquet

最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquethttps://github.com/apache/arrow/issues/1470如何使用pyarrow把一个parquet转换一下呢?import pyarrow.parquet as pqdf=pq.read_table('...

2019-12-06 18:43:51 798

原创 spark query hive and save as libsvm

以下示例代码使用 spark 查询 hive并把结果存储为 libsvm 格式:from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext hc = HiveContext(sc)df = hc.sql("select product_key,plu_id from test limi...

2019-11-07 14:46:14 491

原创 CDH 下 impala-shell 的使用 (输出csv, 中文ascii错误)

使用impala-shell 导出csv数据的命令行:impala-shell -i impalad.server -k --output_delimiter="," -B -f query.file -o output.csv中文乱码问题:UnicodeEncodeError:'ascii'codeccan'tencodecharactersinposition...

2019-10-23 11:06:54 341 1

原创 机器学习中计算优化的 Ring AllReduce

参考这篇文章:https://blog.csdn.net/dpppBR/article/details/80445569谈一下我的理解,在GPU的机器学习过程中,传统的做法有类似MapReduce的地方,把数据分成若干个小块,每个小块在一个GPU上训练(Map),然后把训练得到的神经网络参数汇总到一台机器计算参数的平均值(Reduce),最后又会把计算好的参数返还给。这看起来很合理,但...

2019-10-16 11:12:32 136

转载 大型系统的Redis性能优化

本文为转载:https://blog.csdn.net/vcbin/article/details/53941682问题描述系统背景:大型线上Java服务集群(活跃用户数上千万),业务重度使用Redis存储个管理Session,业务并发量>1WQPS,基本上每个请求都需要访问Redis(可能是多次),使用了AWS的Redis服务Redis在平时正常流量下平均响应时间是1...

2019-10-11 18:03:25 81

原创 xgboost(1.0) yarn(附CDH 5.14的个人心得)

个人心得(CDH5.14,心得是对下文转载步骤的补充):CDH5.14的config.mkconfig.mk的配置要改成如下:USE_HDFS = 1HDFS_LIB_PATH = /home/user/xgboost/xgboost-package/libhdfs/libHADOOP_HOME = /opt/cloudera/parcels/CDHHADOOP_HDFS_HO...

2019-09-05 22:54:04 243

转载 kerberos的tgt时间理解

之前在impala集成kerberos时,遇到了时间相关的问题,当时没有做充分的测试,对某些理解有些问题(http://caiguangguang.blog.51cto.com/1652935/1381323),今天正好做了下测试,总结如下:1.klist中expires以及renew until是由client端的/etc/krb5.conf配置文件中的参数决定(在没有超过max的情况...

2019-09-03 18:00:25 651

原创 OpenWrt 双s插件 bash代码研读

Project git url: https://github.com/ss/openwrt-ss包含 ss-{local,redir,tunnel} 三个可执行文件默认启动 ss-local 建立本地 SOCKS 代理ss-libev-spec 为针对 OpenWrt 路由器的优化版本包含 ss-{redir,rules,tunnel} 三个可执行文件ss-redir 建立透明代理,...

2019-09-01 20:29:54 2531

原创 在CDH 上 调通 Zeppelin 与 Spark

坑点:CDH的spark home其实在 /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/bin一定要找那个有spark-class.sh文件的目录。spark-submit.sh其实调用的是spark-class.sh.配置SPARK_HOME到zeppelin-env.sh...

2019-08-28 19:24:58 327

原创 Windows 上创建MIT Kerberos票据

安装完MIT Kerberos的客户端后,krb5的目录是一个隐藏的目录,这点很恶心Setting Up the Kerberos Configuration FileSettings for Kerberos are specified through a configuration file. You can set up the configuration file as an...

2019-08-19 11:30:27 1069

原创 Kafka 命令行操作

CDH 的 kafka 命令脚本安装目录:/opt/cloudera/parcels/KAFKA-2.2.0-1.2.2.0.p0.68/lib/kafka/binList Topics:./kafka-topics.sh --zookeeper 172.16.26.4:2181/kafka --listList Consumer Groups:./kafka-co...

2019-07-10 15:12:01 357

原创 Redis 杂记(安装,conf,还原rdb,查看key过期时间)

Redis有两个linux和windows两个版本,截至本文发表时,linux是5.05,而windows的版本不是官方的,版本为3.2。这两个版本的redis的dump.rdb文件并不兼容。Linux的redis安装:下载官网的压缩包,tar xzvf 解压,cd进入src目录,make install启动: redis-server /dir/redis.confco...

2019-06-26 13:32:18 1768

转载 系统吞吐量(TPS)、用户并发量、性能测试概念和公式

转自:http://www.ha97.com/5095.htmlPS:下面是性能测试的主要概念和计算公式,记录下:一.系统吞度量要素:一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust对CPU消耗越高,外部系统接口、IO影响速度越慢,系统吞吐能力越低,反之越高。系统吞吐量几个重要参数:QPS(TPS)、...

2019-06-22 23:23:44 204

原创 Spark & Jupyter Notebook

In[3]:import pysparkfrom pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessionsparkconf = SparkConf().setAppName("myspark")#spark = SparkSession.builder.master("spark://...

2019-05-29 18:42:00 133

原创 Pentaho Kettle 8.1 使用 Mysql 8.0 开启 Reposity 模式

Mysql 8.1 驱动放到kettle的lib目录。在kettle安装目录,simple-jndi目录下,编辑 jdbc.properties 文件加入mysql的配置项:MYSQL8_DB/type=javax.sql.DataSourceMYSQL8_DB/driver=com.mysql.cj.jdbc.DriverMYSQL8_DB/url=jdbc:mysql://loc...

2019-04-30 16:13:53 853

原创 安全库存公式的解析

安全库存公式:在计算安全库存公式时,其实我们面对的是两个正态分布:1. 供应周期的正态分布2. 需求的正态分布安全库存就是在这两个正态分布的上下浮动过程中能覆盖一定供应水平的一个标准差。举例来说,标准正态分布的x取值范围在(-1.96,1.96)之间的时候,能覆盖95%的情况,所以当安全库存>1.96倍的标准差时,能提供一个95%的服务水平。正态分布有可加性,所...

2019-04-22 10:12:49 3313

转载 kaggle竞赛: 沃尔玛销量预测

竞赛地址:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting第一名方案:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/discussion/8125基本思路是应用R的forecast包,对每个商店每...

2019-02-28 18:06:25 4279

原创 python2/python3 连接 hive/impala 的问题汇总

'TSocket' object has no attribute 'isOpen bug:https://github.com/cloudera/impyla/issues/268'TSaslClientTransport' object has no attribute 'readAll':https://github.com/dropbox/PyHive/issues/151解决...

2019-02-21 18:20:12 4376

原创 anaconda python 连 impala (选择正确的anaconda版本, bug修复) & linux python3装 jupyter

 Windows 上的安装 截至目前2019/2/20 不要选python3.7版本对应的anaconda, 因为在python3.7 "async" 变成了一个关键词, 和python访问impala的库impyla有冲突, 建议选python3.5对应的anaconda版本import impala.dbapi这段代码执行后可能报错: thriftpy.parser.ex...

2019-02-20 18:01:10 580

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

QString 里面int类型的数字,转成QString类型的3位数,怎么做?谢谢

发表于 2012-02-06 最后回复 2020-04-08

爱知菜的留言板

发表于 2020-01-02 最后回复 2020-01-02

请问org.springframework.data.domain.Sort,这个类要引用哪些包?

发表于 2013-03-20 最后回复 2015-08-12

qt写的tcp socket程序客户端只能和用qt写的服务端通信吗?

发表于 2012-02-02 最后回复 2014-09-09

[Android 界面] PNG图片的透明部分不显示LAYOUT的背景色,怎么解决

发表于 2012-07-13 最后回复 2014-07-07

behavior | CommandBehavior.CloseConnection 请问这里的"|" 符号是什么意思?

发表于 2014-01-14 最后回复 2014-06-10

在维度设计时,多对多关系除了使用雪花模型,还有什么好的解决办法呢??

发表于 2013-11-07 最后回复 2014-01-14

请问python的多线程的锁必须声明在主线程中吗?

发表于 2013-10-31 最后回复 2013-11-01

收视率和收听率的数据仓库怎么设计?大家有没有好的建议?

发表于 2013-05-10 最后回复 2013-05-13

mysql拿来做数据仓库和数据挖掘是否合适?它有什么对应的ETL工具吗?

发表于 2013-04-29 最后回复 2013-05-02

python写网络爬虫时遇到的问题

发表于 2013-04-19 最后回复 2013-04-27

网站怎么样远程读写文件服务器上的目录和文件?

发表于 2013-04-12 最后回复 2013-04-14

要序列化的一个类里有成员对象是用接口声明的,无法序列化,怎么办,谢谢

发表于 2012-12-17 最后回复 2013-01-24

QThread对象会在线程结束后自己释放吗?

发表于 2012-02-06 最后回复 2013-01-13

请问spring.net配置文件中parsers节点是干什么用的

发表于 2012-09-25 最后回复 2012-10-08

C#序列化后多了一个__type属性,怎么把这个属性去掉?

发表于 2012-06-08 最后回复 2012-06-09

对多个列进行模糊查询,有没有什么优化手段?

发表于 2012-05-21 最后回复 2012-05-22

"Thu Apr 19 14:56:45 +0800 2012"这样格式的字符串怎么转成DateTime类型

发表于 2012-04-19 最后回复 2012-04-19

查询用户操作日志表中,两次操作间隔大于30秒的用户,这句sql语句怎么写?

发表于 2012-01-04 最后回复 2012-01-04

IIS Express 怎么添加通配符映射?

发表于 2011-12-08 最后回复 2012-01-04

[DotNetNuke]多个ascx页面使用了asp.net ajax的ScriptManager控件,造成最终的aspx页面只有一部分能局部渲染的问题

发表于 2011-11-21 最后回复 2011-11-21

web service 怎么返回xml格式的数据,有哪几种方式?

发表于 2011-10-17 最后回复 2011-10-17

webservice和普通网页返回xml类型的数据有什么区别?

发表于 2011-10-12 最后回复 2011-10-13

SQL的字符串中单引号和括号怎么进行转义?

发表于 2011-07-18 最后回复 2011-07-19

为什么我用response.addheader指定下载文件的名字每次都失效?

发表于 2011-07-11 最后回复 2011-07-12

请问怎么写一个返回多个列不重复的结果表的存储过程啊?

发表于 2011-07-06 最后回复 2011-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除