自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(429)
  • 资源 (9)
  • 收藏
  • 关注

原创 Rasa 2.8 开发指南

自定义action代码写在action.py中要在endpoint.yml文件中指定自定义action的服务器地址。

2021-08-18 15:54:50 666

原创 Rasa-Jieba-Ner:在Rasa中使用Jieba分词作为实体抽取组件

介绍Rasa是一个基于深度学习的聊天机器人框架。Jieba是国人大神开源的一个中文NLP库。本文介绍我为一个为Rasa项目实现了中文的实体抽取组件的库。实体抽取基于Jieba分词的词性识别,可以通过指定词性,将该词性的实体识别出来。Rasa-Jieba-Ner: 基于Jieba分词的,实体抽取 (github.com)使用运行build.cmd中的命令生成wheel包。 使用pip安装wheel包。 修改Rasa项目的config文件,使用本library作为实体抽取组件

2021-08-11 17:56:11 2210 2

原创 Ubuntu下putty复制粘贴&Samba Status_Access_Denied error

发现我Xubuntu(Linux rav009-desktop 5.8.0-53-generic #60~20.04.1-Ubuntu SMP Thu May 6 09:52:46 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux)的环境下负责

2021-08-11 17:53:06 1074

原创 安装 tensorflow 中由于CPU不支持指令集导致的问题

tensorflow从1.6版本开始对CPU要求支持AVX指令集。导致老电脑安装tensorflow的python预编译包时后,在python中import tensorflow会报错(illegal instruction)。解决办法1. 自己编译tensorflow2. github上搜一个repo, 叫 yaroslavvb/tensorflow-community-wheels, 这个repo的iss...

2021-08-09 16:31:49 1186

原创 从RNN到UniLM:NLP & DeepLearning技术发展历程。

最近在研究NLG,看了很多资料顺便整理一下收获。使用DeepLearning技术在NLP领域,最初是从RNN开始的。模型RNNRNN的R是recurrent,中文全称循环神经网络。这种神经网络比传统的神经网络的优势是有记忆力。在计算的过程中,除了有输入外,还会把上一次的计算产生的隐藏层也一并输入进来。“一并输入进来”这个过程叫concat,具体做法其实很简单,就是把输入的向量和隐藏层的向量接起来。比如输入向量长度是5, 隐藏层长度是128, 那么RNN的输入层长度就是12

2021-08-04 18:22:58 349

原创 webpy框架小知识: sub application 和 session

webpy中如果想把application放到单独的py文件中,使代码有更好结构,这种做法叫sub application。在sub application的py文件中如何访问session?需要在 application的py文件中定义一个hook:def session_hook(): web.ctx.session = sessionapp.add_processor(web.loadhook(session_hook))之后,在sub application的p.

2021-06-21 17:36:54 220

原创 nvidia cuda windows下gpu内存管理

mxnet 出现cuo'wuRuntimeError: CUDA out of memory. Tried to allocate这表示显卡内存不足,搜索怎么释放显卡的内存的时候,大多都是linux下的解决方法。windows下可以这样做:打开cmd窗口,输入nvidai-smi查看显卡使用情况如图可以看到下边有个PID表示进程id,然后打开任务管理器,点击详细信息,根据pid找到需要释放的进程结束即可。————————————————版权声明:本文为CSDN博主「安娜是个少年」的原创文章,遵

2021-06-06 21:29:13 907 1

原创 i18n 和 基于js的网页多语言框架 jquery.i18n的介绍

i18n = internationalization, 这个单词 i 开头, n 结尾,中间18个字母,所以简称 i18n。jquery.i18n,是一个基于jquery的在网页上实现多语言支持的js框架。这个框架本质上就是自动读取json文件,然后用json文件中的文本渲染页面。使用很简单,有如下几步:1. 引用jquery和jquery.i18n的js文件<script src="../jquery.min.js"></script><scr.

2021-05-26 15:49:49 1351

原创 mysql 对有自增主键的表插入csv数据

比如自增数据让它自然增长,但是其他列用csv的内容,怎么写?可以在SQL最后指明插入列的列表。示例:load data local infile 'yige.csv' into table some_tablenamefields terminated by ',' lines terminated by '\n'(store_id,statistics_date,epay_customer_cnt,scan_customer_cnt,total_trans_cnt, ...

2021-05-25 17:09:32 617 1

原创 在centos上用mysql作数据库 搭建airflow

注意点:1. airflow 默认用sqlite作数据库,2.0版本的airflow对sqlite的版本要求较高(>3.15)2. airflow可以不用sqlite,用其他数据库3. 环境变量 "AIRFLOW_HOME" 很重要,执行airflow命令时,读取配置文件的路径就是根据该环境变量确定。建议配置到 /etc/profile4. 根据你python的版本要下一个constraints-X.X.txt的文件,用于安装。以下假设AIRFLOW_HOME=/opt/ai.

2021-05-08 17:35:06 228

原创 在Zeppelin中使用latex写公式

Zeppelin的md解析器能支持Latex语法,写公式。%md以$$开始和结尾,表示一段单独成行的公式。以\\( 开始, \\)结尾,表示一段inline的公式一段示例:%md连续函数的正交性就是两个函数的乘积在一定积分范围内的积分等于零。上面三个图,想表达的含义就是sin函数的正交性。可以看到第一个图在-π到π的积分范围内,其积分不等于零。而第二个图和第三个图在-π到π的积分范围内,其积分等于零。事实上通过和差化积可以证明以下公式:$$ 设m,n是正整数, $$$$ 当m

2021-04-26 17:49:01 201

原创 关于 linux的服务管理系统 systemd 的配置(开机启动)

曾经在ubuntu在16.x的年代,有过一个叫upstart的服务管理器,后来被retire了。目前最新的版本的linux比如ubuntu和centos,主要使用systemd这个服务管理器。那么如何把自己开发的脚本变成一个开机自启动的服务呢?两步走:1. 假设你的程序叫 zeppelin ,执行命令行,注册一个配置文件:sudo vi /etc/systemd/system/zeppelin.service把如下这段粘贴进入文档:[Unit]Description=Zep

2021-04-25 17:34:43 268

原创 ecplise export war包小结

1. ecplise export,没有war包的选项:https://www.cnblogs.com/wenshuifan/p/9927238.html要装这4个插件:Eclipse Java EE Developer ToolsEclipse Java Web Developer ToolsEclipse Web Developer ToolsEclipse XML Editors and Tools (新版本中名字可能改成了 “Eclipse XSL。。。”)2. war.

2021-03-08 11:00:21 597

原创 impyla 查询 列数太多不能返回的解决办法

conn = connect(host='172.16.26.16', port=31050, user='xxxx', password='xxxx', auth_mechanism='LDAP', timeout=timeout)cur = conn.cursor()cur.arraysize = 1cur.execute(sql)通过 cur.arraysize = 1 调整buffer大小,来解决这个情况

2021-03-01 19:38:48 296

原创 python azure-storage-blob库 使用SAS key下载blob文件实例

1. 首先安装这个库pip install azure-storage-blob2. 使用SAS URL可以直接连上某个container,然后以文件名来下载。from azure.storage.blob import ContainerClientsas_url = "SAS URL"container = ContainerClient.from_container_url(sas_url)blobs_list = container.list_blobs()for blo

2021-02-24 15:46:11 1049

原创 使用TortoiseGit,如果每次clone/push/pull都出现totoisegitplink的密码输入框,就需改下面这个配置 从totoisegitplink.exe 改

输入命令,生成秘钥sshkey,引号中为注释,这里为自己注册gitlab的邮箱。使用TortoiseGit,如果每次clone/push/pull都出现totoisegitplink的密码输入框,就需改下面这个配置 从totoisegitplink.exe 改成 ssh.exe修改TortoiseGit默认ssh.exe文件位置,改为自己安装的git文件夹中的ssh.exe并点击确定。...

2021-02-22 17:47:05 425

原创 python 数据库连接session的示例代码

@contextlib.contextmanagerdef getdb(): conn = pymysql.connect("url://server", "username", "password", "dbname", charset='utf8') cursor = conn.cursor() try: yield cursor finally: conn.commit() cursor.close() .

2021-02-04 13:48:06 456 1

原创 python 为函数加上自动retry 的装饰器

""" :param delays: An iterable object the defines num of seconds between reties, also indicating num of retries. Default: retry 3 times, waiting 1/5/30 seconds. :param exceptions: Specifies exceptions that trigger re.

2021-02-01 18:43:55 626

原创 windows command 批量重命名 文件,在文件前加上前缀

for %i in (*.png) do rename "%i" prefix_"%i"这个命令遍历所有png文件,为它们加上前缀

2021-02-01 16:28:44 1418 1

原创 零售行业O2O的研究

零售行业,特别是快销行业的O2O最近很火,本文讲一下O2O中最经典的模式“O2O下行”即线上to线下的一些总结。O2O下行就是指线上 下单,线下门店来完成销售的一种模式,从上到下,所以叫下行。反过来就是上行。下行又可以进一步细分,为了方便对比,我们把传统的EC线上销售模式也纳入表格的比较范围:类别 库存位置 判定逻辑 配送模式 简介 纯EC EC仓 EC仓有货 EC仓发货到顾客收货地址 O2O EC仓 EC仓有货 EC.

2021-01-15 16:58:16 149

原创 NLP和感知机

最近在看Hanlp作者的一本书,讲到了感知机,这里简单说下。感知机本质就是一个线性函数,很像一个神经网络里的一个神经元。不同点是神经元有一个激活函数,而感知机就是通过结果的正负来做二分类。感知机的损失函数,或者说惩罚函数,就是对于误分类的样本,希望他们的感知结果的绝对值总和越小越好。选择这个惩罚函数的原因是”它是可导的”,可以梯度下降到的一个极小值。完成感知机的训练后,用感知机的感知结果和,用它代替HMM模型中的概率距离和,还是用维特比算法求最小路径,就能得到正确的分词结果。..

2021-01-07 11:59:58 269

原创 pyhanlp 自定义词典操作

在代码中编辑自定义词典CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")CustomDictionary.add("代行", "nnt 1999")CustomDictionary.add("李紫文", "nr 1")CustomDictionary.add("胡浩洋", "nr 1")强制 优先自定义词典HanLP.newSegment()\ .enableNameRecogni

2020-12-30 19:20:02 727

原创 查看linux上java内存情况的相关命令

Java 8 takes more than1/64thof your physical memory for yourXmssize(Minimum HeapSize) and less than1/4thof your physical memory for your-Xmxsize(Maximum HeapSize).默认最大是1/4, 默认最小是1/64的物理内存。Java 8 takes more than1/64thof your physical memory fo...

2020-12-15 15:20:57 1051

原创 grpcio (python) 初探

grpc 是一个 google开源的 rpc库,支持多种语言,本文讲python版本的grpc。安装:pip install grpciopip install grpcio-tools开发顺序:1. 首先要定义prototype文件。定义好rpc的函数、输入参数,返回参数。示例如下:syntax = "proto3";message DomoPushRequest {// 定义请求数据 string digest = 1; string conten.

2020-12-07 16:15:27 4859

原创 linux 命令行连接 PostgreSQL

linux下连接PostgresSQL的命令行工具是 “psql”在这个页面获取下载安装的命令行:https://www.postgresql.org/download/linux/redhat/头两行都要运行,先装repo,再装postgresql-sever安装后就可以运行psql。psql连接语句示例:(启用SSL)psql "sslmode=verify-full sslrootcert=/path/of/cert host=host.ip dbname=dbname us

2020-12-01 18:33:04 8522

原创 Linux 服务器上 配置 Oracle 客户端和sqlplus

本文针对Oracle12c在Linux上用命令行访问Oracle数据库要装两个东西一个是Client, 一个是Sqlplus。Client是类似驱动的东西,Sqlplus则是sql的输入界面(CLI)Oracle 12的下载在这里:https://www.oracle.com/database/technologies/instant-client/linux-x86-64-downloads.html以zip安装包为例解压缩到某个目录后,就是要配置一个配置文件和环境变量了参考:

2020-11-30 17:40:59 562

原创 mysql utf-8中文乱码

mysql utf-8中文乱码,服务器上配置了“character_set_server | latin1 ”, 怎么办?可以在见表的时候指定表的字符编码。create table wechat_report(report_id bigint not null auto_increment,date_id int,ver_id int,open2all int,html_report longtext,primary key (report_id) )ENGINE=InnoDB..

2020-11-04 14:22:31 393

原创 Zeppelin 中使用 credentials 隐藏 代码段中的敏感信息

如下图:1. 配置credentials2. 配置要使用的解释器,加入一个配置项:injectCredentials3. 在代码中用 {entity名.user} 和{entity名.password} 来使用敏感信息。示例图片中entity名为aaa

2020-09-27 19:04:35 467

原创 关于linux账户的提权、免密sudo和 kerberos联动

linux普通用户获取root级别权限,有两种方法:一个提权,即编辑 /etc/passwd,把自己的uid改成0,uid可以直接用命令id查看 还一个sudo,即编辑 /etc/sudoer(等效于命令 visudo),把自己加入到可以sudo的用户列表,还可以配置免密sudo另外在有配置kerberos体系的系统中,理论上每个linux用户在kinit后应该有独立的kerberos账号,如果该linux账号是经过“提权”的,可能会发生kerberos账号被串用的情况...

2020-08-26 11:15:58 360

转载 windows 实现 java1.6和 java1.8 切换

https://blog.csdn.net/asd051377305/article/details/81879872问题背景公司项目中应用到的jdk环境为1.6,最近在家学习IntelliJ IDEA中sdk多环境配置时,想安装Jdk1.8,作为学习基础。那么问题来了,公司项目扩展不支持jdk1.8,为了既能满足公司项目开发环境,又能满足学习jdk1.8的需要,当然不能每一次都进行jdk的安装和卸载,需要探索另一种新方法。分析问题为了多快好省的解决当前的问题,我的想法是在windows中同时

2020-08-11 18:38:35 1339

原创 CDH 添加 新节点 拾遗

1. 查询repository的http地址: 找一台master节点运行如下命令。cat /etc/yum.repos.d/cloudera*

2020-08-04 15:41:10 183

原创 azkaban的用户配置和重启 笔记

假设azkaban安装在:/usr/local/azkaban/配置用户:编辑/usr/local/azkaban/azkaban-web-server/conf/azkaban-user.xml权限列表:ADMIN Grants all access to everything in Azkaban.READ Gives users read only access to every proj...

2020-07-16 17:52:21 1276

原创 uwsgi + webpy 部署教程

uwsgi安装:yum install uwsgi-plugin-pythonINI示例:[uwsgi]http-socket=:9090plugin=pythonwsgi-file=/home/fr-renjie.wei/selfquerydlk/index_wsgi.pythreads=2processes=4master=Trueuid=linuxuserna...

2020-05-06 19:25:18 696

原创 Zeppelin 实现 iframe 分享的相关问题

Zeppelin制作的图标可以生成 iframe 进行分享,但是在实践过程中会遇到几个坑。1. X-Frame-Options参考https://zeppelin.apache.org/docs/0.7.3/security/http_security_headers.html修改zeppelin-site.xml<property> <name>ze...

2020-04-20 11:08:04 777

原创 Apache Zeppelin 的 shiro.ini 简单配置说明

shiro 本身也是一个apache项目。shiro.ini 位于 Zeppelin 的 conf 文件夹下。[users]segment 配置用户名密码和role[roles] segment 配置roles如果shiro 和 LDAP或者window AD有关联,可以在roles里填组名,如果没有,就是 “rolename = *”[urls] segment...

2020-02-10 16:55:55 937

原创 Kubernetes (K8S) 学习笔记

Kubernetes 以下简称 k8s,是类似hadoop中yarn的存在,对大规模集群进行创建、删除、升级、扩容的一层组件。微软Azure官方的教程:链接: https://pan.baidu.com/s/1AM6eq80Y72TuVF1yFXS5CQ 提取码: j363基本元素:1. pod包含一个或多个container, 一个完整的app可以有多个pod2. depl...

2020-02-05 23:21:33 404

原创 spark 运行概念和关键参数

1.num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优...

2020-01-02 18:11:20 257

原创 azcopy linux 安装使用说明(blob)

azcopy 有过一次大的命令行接口更新:7.x的版本 命令形如: azcopy --source .... --destination ...10.x的版本 命令形如:azcopy copy10.x的版本有子命令安装说明:wget -O azcopy.tar.gz https://aka.ms/downloadazcopy-v10-linuxtar -xf azc...

2020-01-02 12:15:52 4188

原创 spark 运行 xgboost 脱坑记

坑:Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse vector,造成xgboost报错示例代码:val schema = new Struct...

2019-12-30 18:01:47 1211

转载 Spark Xgboost 分布式运行原理

参考xgboost官网文章:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.htmlParallel/Distributed TrainingThe massive size of training dataset is one of the most significant characteri...

2019-12-26 14:43:10 861

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除