自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

大数据相关 Python相关

  • 博客(429)
  • 资源 (9)
  • 收藏
  • 关注

原创 机器学习的专业术语 和 各种技巧

专业术语Churn = 客户流失,退订 Accuracy = 模型预测的总体(阴性+阳性)的正确比率 Precision = 模型预测中,阳性的预测正确比率 ROC = 体现分类算法中不同阈值对分类效果的影响 Softmax = 神经网络中将输出转换成概率分布 Rectofoed linear units(ReLU) = 神经网络的激活函数 Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力 Horovod = Distributed training f

2024-03-20 19:01:10 1004

原创 AWS Sagemaker详解

图片语义分析= Amazon SageMaker Ground Truth semantic segmentation labeling task。

2024-03-20 18:59:31 1170

原创 机器学习算法大全(MLS-C01)

将图像中的每个像素分配到特定的类别,需要大量训练。时序预测,效果比DeepAR差,适用于小数据集。Word embedding,NLP文章分类。利用已知样本,找最邻近的样本的分类算法。推荐算法,准确度更高,不会误打扰。多智能强化学习,比如处理交通问题。时序预测,适用于季节强相关的序列。回归RNN预测时序分布的模型。卷积神经网络,常用于图像领域。回归算法,常用于填补缺失值。基于CNN的物体识别算法。时序预测,适用于小数据集。CNN的一种,图像识别。循环神经网络,时序预测。主成分分析,常用于降维。

2024-03-18 18:09:55 295

原创 AWS中所有与数据科学有关的服务一览表(MLS-C01)

AWS中所有与数据科学有关的服务一览表(MLS-C01)

2024-03-18 16:39:55 579

原创 Python SDK 访问S3, Error(403) when calling the Heading Object Operation: forbidden

2. 检查桶的ACL设置,是否桶的ACL被配置成上传者所拥有。导致桶的AWS Account下的IAM User和Role无法访问来自其他AWS Account上传的文件。1. 检查桶加密配置,是否使用KMS加密桶。

2024-03-05 18:34:23 318

原创 AWS EC2使用 instance profile 访问S3

AWS EC2 instance可以使用instance profile 配置访问S3的权限。然后就可以直接在EC2上执行 python代码或者AWS CLI去访问S3了。唯一需要注意的地方是,申明region。

2023-12-04 17:46:07 764

原创 AWS EC2 如何 使用 SSM会话管理器登陆

其次EC的instance role必须有一个叫“AmazonSSMManagedInstanceCore”的策略。首先只有特定版本的OS会默认附带SSM Agent。

2023-11-30 19:24:18 991

原创 AWS IAM User assume IAM Role的示例代码

一段示例代码,如何用Python boto3先使用某个IAM User的AK SK登陆sts。最后执行某个具体操作,比如代码中的 上传文件到S3 bucket。然后继承某个IAM Role。

2023-09-26 19:31:36 1885

原创 https SSL证书使用 git bash 解密

下载下来的证书压缩包中, 后缀名为key的文件是加密的,密码就是你在上面图片对话框里的输入的密码。需要使用openssl解密。注意,由于使用git bash才会需要在前面加上“winpty”,正常版本openssl不需要。在使用时,比如在AWS ACM中使用时,不能用加密的证书。所以这里讲下怎么解密。填写密码,下载证书,并解压。首先,加密一般加密的是公私钥中的私钥,即private.key。这里使用git bash自带的openssl解密。申请域名证书后,有些证书下载时强制加密。cd到证书解压放置的目录。

2023-09-22 18:11:12 671

原创 AWS DynamoDB浅析

AWS DynamoDB是一个NOSQL数据库。可以通过IAM直接控制权限,和AWS其他服务连用非常方便。

2023-09-04 10:25:51 1398

原创 Redshift 新表 自动赋权

"grant all on all tables" 只会将已有的对象进行赋权。对于未来新建的对象,不会赋权。为了解决这个问题, Redshift 中有一个 "DEFAULT PRIVILEGES" 的概念。可以让新建的对象自动赋权给某个Role或User。中的所有Table对象的所有权限。

2023-08-08 10:17:21 311

原创 AWS Lambda timeout原因总结

AWS Lambda不能放在public subnet中。Lambda本身没有NAT能力,无法获取公网IP。所以Lambda必须置于 private subnet中。并且为其配置NAT Gateway并添加route。其次检查security group。

2023-04-07 18:25:18 853 1

原创 AWS ALB ELB导出日志到S3 没权限错误

ELB ALB logs 日志

2023-03-13 19:25:57 1261

原创 AWS Sign-URL的过期时间设置

2. 在浏览器按F12进入源代码模式。在网络中找到名为creds的链接。点击creds,在Cookie中找到“aws-creds”,根据过期时间即可计算得知当前登陆链接的有效时间。如上链接, AWS支持自己写代码生成登陆链接( Sign-URL)来登陆的模式。每个登陆链接都有一个过期时间,最小15min,最大36hours。1. 打开链接登陆AWS Console。那么如何判断自己登陆链接的有效时间呢?在企业中这种方式比较常见。

2023-03-10 19:18:08 926

原创 AWS Auto Scaling Group中的Instance如何重启

一般情况下Auto Scaling Group中的Instance如果重启,会被ASG的健康检查发现,导致ASG立刻新建新机器。把 Launch和Health Check暂时关闭,再去重启instance就OK啦,不用担心ASG多此一举啦。办法很多,一个最简单的办法就是暂时关闭ASG的Launch和Health Check。本文要讲的是在这种情况下,如何避免ASG新建新机器。(有的时候单纯想重启一下机器)

2023-03-03 18:56:24 709

原创 AWS CodeDeploy的疑难问题小记

76bdfdd2-91c7-4d88-84e0-6ebe4d25bfa6/d-6BTWU2CDK/”这部分每个人都不一样,不要照抄。如果appspec.yml中location的值是“a.sh”,那么CodeDeploy Agent就会去找一个全路径为。当指定runas的时候,CodeDeploy Agent会以runas的值作为用户,去执行脚本。CodeDeploy Agent执行location指定脚本的执行路径是根目录: /。具体source的配置文件,根据实际情况调整。

2023-01-16 12:33:40 1228

原创 网站开发跨域名iFrame嵌入之SameSite&CSRF

简而言之,就是这种攻击手段利用了iframe或其他一些技术,是A域名的网站能访问B域名的session和cookie,进而甚至于能让A域名的网站利用session和cookie中的信息伪装成用户向B域名发起请求。想象一下A域名是一个银行网站,那么B域名就能伪装成用户请求银行转账了。当SameSite等于Lax或Strict时,iframe中的不同域名的页面不会被允许访问session。最近使用Flask开发了一个网站的应用,要实现在iframe中嵌入一个来自不同域名的页面。

2023-01-10 22:18:13 1662

原创 AWS DAS认证考点整理(EMR QuickSight Lakeformation等)

AWS DAS认证考点整理(EMR QuickSight Lakeformation等)

2022-11-27 22:07:09 1320

原创 AWS DAS认证考点整理(Kinesis篇)

KDSKDS重复数据:1. Producer有网络延迟,2. Shards、Record Processors有增减。由于网络等不可抗力造成的KDS数据重复可以通过加入唯一码(Unique ID)来去重解决。

2022-11-27 22:02:07 1311

原创 AWS DAS认证考点整理(Redshift篇)

Copy命令优化手段: 压缩, 2. 对大文件进行分割,一次copy多个文件。(文件数对应slice个数)3. 使用temporary staging table(这种方法的本质利用table的drop和create代替delete, update,insert,因为后者是DML会触发事务。)

2022-11-27 21:51:57 1181

原创 AWS DAS认证考点整理(Athena&Glue篇)

AWS DAS认证考点整理(Athena&Glue篇)Athena查询隔离=Work Group, 可以control per-query data usage limit.Athena查询速度优化:1. 压缩 2. 列式存储 3. S3和Athena同一个RegionAthena查询成本优化:1.Partition by,2. 列式存储,3.合并小文件Athena partition快速生成or恢复=MSCK REPAIR TABLE,Athena使用hive style partition。

2022-11-17 12:09:35 1312

原创 AWS China Elastic Beanstalk 填坑记(Python Flask)

本文记述的事发生在2022年11月,环境是AWS China Region,不是AWS Gobal。 Elastic Beanstalk简称EB。尝试把一个Python Flask Web部署到Elastic Beanstalk上去,过程中发现了AWS无论是中国区还是全球区的文档和实际情况不符。具体情况:EB会把你上传代码放到EC2服务器上的 /var/app 路径下。

2022-11-04 21:33:16 906

原创 Power BI 的 各种限制 和 DataFlow模式

当大量Dataset同时刷新时,会导致Gateway节点内存不足。可以使用PowerBI Data Flow对DataSet进行分段刷新来绕开这个问题。Direct Query不再有DataSet相关的限制,但是它有一个100万行的数据量查询限制。分页报表的交互性能比较差,且直连某些数据源(比如Redshift)时性能较差。

2022-09-05 16:24:37 1445

原创 SSAS 疑难杂症 解决过程小记

远程连不上:先从任务管理器里找到SSAS(MSOLAP)进程号或者运行命令行:tasklist | findstr msmdsrv.exe找出SSAS监听端口(7052是上面得到的进程号):netstat -ano | findstr 7052在windows防火墙里, 打开端口...

2022-09-05 15:54:45 420 1

原创 一个动力密集型产业的预算的数据分析建模过程

对于一个劳动力密集型产业来说,做预算判断未来的财月的运营成本,往往可以简化成下面这个公式:成本= 员工数目 * 人均开销其中人均开销包括薪资,培训费用和办公费用,这个些费用往往比较固定或者易于计算,可以视为定量.于是,剩下的变量就是员工数目又叫HeadCount. 预测成本的关键就在于预测员工数目.员工数目取决于工作量,比如售后行业都会对员工的工作进展通过一个软件记录追踪,

2022-09-05 15:52:39 360

原创 AWS Athena针对CSV文件切换SerDe Lib

这个引擎默认使用双引号所谓封闭符,逗号作为CSV的分隔符。不用配置任何Serde parameters就能用。但是如果CSV用双引号作为封闭符的话,这个引擎会把双引号当作数据的一部分,不能正确识别出封闭符。解决办法就是把一些可能是空的列,点击“Edit Schema”改成string类型。作为CSV文件的解析引擎。...

2022-08-16 11:29:16 617

原创 AWS RHRL8.3 安装Codedeploy Agent

研究了一天的ruby编译和安装,最后发现SSM安装一键搞定:

2022-06-19 21:54:50 321

原创 git merge 时忽略配置文件文件

日常开发时经常会遇到某些配置文件,不希望在branch merge时被包含在内。怎么处理?步骤如下:步骤一:定义一个虚拟的合并策略,全局配置不依赖任何项目任何分支git config --global merge.ours.driver true步骤二:在你项目中根目录(与.gitignore同级)添加一个配置文件.gitattributes注意这个".gitattributes"在必须要放到merge的目标branch中,而不是源branch。步骤三:在.gitattri

2022-05-15 14:42:55 1964 3

原创 Python打包Wheel包的傻瓜式一站教程

1. setup.py 文件示例:from setuptools import find_packagesfrom setuptools import setupsetup( name="name", author="xxxx", version="0.0.1", author_email="r@e.com", description="desc", long_description="long desc", license='Apache

2022-03-01 18:10:45 2691

原创 AWS Lambda 部署 Python (Lambda Layer)

AWS Lambda支持Python的多个版本作为runtime在Lambda上使用Python的常用问题:1. Python libraryAWS Lambda Runtime只支持原生的runtime,并没有预装任何library。在Lambda中引入library,利用 “pip install -t”, 将library安装到项目工程中。然后打成zip包上传。2. Handler在每个Python Lambda中,可以定义如下这个函数作为Lambda调用的Handler。

2022-03-01 10:20:35 4330

转载 Python——web.py模块错误【UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte....】

根据提示找到python3安装目录下的libs/site-pageages/web文件夹下template.py文件找到修改如下:return Template(open(path).read(), filename=path, **self._keywords)修改为return Template(open(path,encoding='utf-8').read(), filename=path, **self._keywords)找到libs/site-pageages/web文件夹

2022-02-14 11:46:08 209

原创 Nodejs npm 编译一个项目

下载一个nodejs项目后,怎么得到编译后的js文件?1. 安装nodejs,在命令行中测试:npm -v2. 初始化nodejs:npm init -y3. 在项目目录下,执行如下语句安装依赖:npm install过程中可能需要安装yarn,是nodejs的另一个包管理工具:npm install -g yarn把yarn的bin目录加入环境变量的Path目录。4. 在项目的路径中找到package.json文件,根据其中scripts的内

2022-01-24 16:04:21 7538

原创 AWS SAA-C02 安全相关考点整理

概述AWS中与安全相关的组件主要有如下5个:AWS Inspector: 为EC2打漏洞补丁。 AWS Shield Advance: 在OSI第4层,防止DDoS攻击。 AWS WAF: 防火墙,工作在OSI第7层,可以防止DDoS,SQL注入和XSS等攻击。 AWS GuardDuty:安全监控,监控VPC flow日志,Cloudtrail日志等,可以发现问题创建CloudWatch事件触发AWS Lambda进行防御。 AWS Macie:识别数据中的敏感信息。防火墙WAF

2022-01-03 16:03:11 3190 1

原创 AWS SAA-C02 数据库/数据仓库(RDS/Dynamodb/Redshift)相关考点整理

加密RDS启用加密:备份snapshot,备份的页面中有一个选项可以选择加密,然后还原被加密的snapshot。 RDS启用加密后,log/snapshot/backup都是自动加密的。 RDS启用TLS加密,需要下载AWS提供的根证书。 RDS MySQL强制数据库连接使用SSL,需要在MySQL使用“Grant/Alter user .... Require SSL” RDS support IAM role authentication容灾备份Single-RegionRDS

2021-12-31 11:42:31 2577

原创 监听S3事件,并推送到SNS和SQS

最近在备考AWS架构师认证,发现一道有意思的题目。网上都找不到正解。题目如下:A company's operations team has an existing Amazon S3 bucket configured to notify an Amazon SQS queue when new objects are created within the bucket. The development team also wants to receive events when new obj

2021-11-07 20:32:48 739

原创 腾讯云EMR HUE集成impala 小记

集群背景情况:集群使用了kerberos和openldap。第一步:登录到集群hue所在的master节点。将当前用户切换成hue进程的执行用户。比如默认是hadoop。su - hadoop第二步:向hue注册impala这个应用,执行:/usr/local/service/hue/tools/app_reg/app_reg.py install /usr/local/service/hue/apps/impala第三步:配置/usr/local/ser

2021-10-19 11:44:53 363

原创 TorchServe 简单教程

torchserve是Facebook和AWS联手开发的一款用于机器学习模型部署和调用的微服务程序。网址:https://pytorch.org/serve/Torchserve调用的模型文件是 .mar 文件,pytorch生成的模型文件要使用torch-model-archiver 来转换成 mar文件。$ torch-model-archiverusage: torch-model-archiver [-h] --model-name MODEL_NAME ..

2021-10-07 22:17:46 951

原创 ansible 简易教程

安装命令pip3 install ansible# 用密码登陆远程主机需要额外装sshpasssudo apt install sshpass配置ansible --versionconfig_file = None这时要在 /etc/ansible/ 目录下手动创建 ansible.cfg 和 hosts 文件。在ansible.cfg中配置,跳过初次ssh时的客户端可信校验。[defaults]host_key_checking = False添加h

2021-10-04 22:36:24 532

原创 腾讯云EMR HUE Openldap 配置

腾讯云EMR开启后,默认配置HUE的权限系统是独立的,并没有和Openldap联通,无法使用Ranger管理HUE的权限。以下记录HUE开启Openldap过程:1. 在集群服务/HUE中找到 pseudo-distributed.ini 文件的配置界面:2. 修改如下配置项:desktop_auth_backenddesktop_ldap_base_dndesktop_ldap_bind_dndesktop_ldap_bind_passworddesktop_ldap_c

2021-09-29 12:05:36 443

原创 CRM大数据在零售(快销)行业的应用

快销行业有线下的门店,随着电商的兴起,大多也有线上的网店。很多快销的品牌也搭建了自己的会员系统,在微信或者支付宝里都能领会员卡。在这样的大背景下,就诞生了很多大数据的分析需求来提高市场营销的成果和精准度,即标题所说的CRM大数据。基于数据分析的顾客分类通过购买频率和购买渠道,对顾客进行一个笼统的基本分类,比如上图中的4个分类。Customer指有购买记录的顾客。App Member Customer指有线会员账号,且一年至少购买一次的顾客。Repeat Customer指A.

2021-09-06 15:07:55 2370

AWS Redshift Kinesis.zip

AWS Redshift & Kinesis Data Stream/MSK/Flink 开发教程文档

2022-01-16

CLOSET+ 算法简论

CLOSET+ 算法简论

2013-05-27

详解python实现FP-TREE进行关联规则挖掘

详解python实现FP-TREE进行关联规则挖掘 python3.2实现,可以生成每一步fp树的图片(需要安装PIL)

2013-05-26

python实现FP-TREE挖掘算法

python3.2实现FP-TREE挖掘算法,可以显示每一步FP树的图片

2013-05-24

数据仓库pdf 合并版

数据仓库pdf 合并版 其他的版本是有多个pdf文件,一章一个,看起来不方便,做了合并成为一个pdf

2013-05-08

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子

sping.net 2.0M1 和 NHiernate3.3结合的一个小例子 注意,请自行根据hbm.xml建立数据库,默认配置用的是mssql2005

2012-09-26

codesmith用的根据数据库生成NHibernate资源的模板

codesmith用的根据数据库生成NHibernate资源的模板

2012-09-08

visual C#网络编程(郑阿奇编)异步通信程序的源代码

visual C#网络编程(郑阿奇编)异步通信程序的源代码

2012-05-21

visual C#网络编程(郑阿奇编)同步通信程序的源代码

visual C#网络编程(郑阿奇编)同步通信程序的源代码

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除