- 博客(369)
- 资源 (15)
- 收藏
- 关注
原创 结合业务场景做好特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。今天就简单聊聊工作中遇到的一些特征工程中的问题,如果大家有更好的方法论,欢迎留言。1、梳理业务流程这个过程主要是为了了解数据产生的主要环节,每个环节产生的数据有哪些,有哪些数据是有明显的因果关系,提前剔除,避免数据泄露。最好由业务方提供更多的业务场景特征,以及尽可能的将特征入库,如果没有的话先提需求积累数据。2、明确业务目标业务目标为了明确建模的目标变量,目标变量决定了如果加工数据特征。3、确定特征范围经过以上
2022-01-18 00:08:19
657
原创 机器学习模型评估方案
模型指标评估,模型本身指标的评估1、测试集评估2、线上指标评估业务指标评估,方便给业务方进行解释,模型能实际产生的效果1、测试集业务指标评估2、线上回测业务指标评估为什么要进行线上评估,在模型开发过程中,遇到的数据真的是各种情况都可能遇到,主要排除的是特征泄露导致的训练集模型效果很好,但是实际效果并不好,这样只能在生产上进行验证...
2021-12-14 14:00:13
892
原创 通过user-agent获取用户的手机品牌
本文主要提供流程1、通过useragent解析手机型号,手机网络,手机系统版本等2、通过解析的手机型号和手机品牌维表进行关联3、手机品牌维表需要自己更新维护,可以参考:https://github.com/matiji66/MobileModels,具体见如下流程具体流程可以参考文件:useragent解析逻辑&手机品牌匹配.txt-其它文档类资源-CSDN下载...
2021-11-22 16:54:52
3531
原创 Flink Sql双流join-回撤机制导致数据重复
数据源:kafka topic数据类型为json业务场景:解析json,由于数据层级比较深,而且包含数组,此处键值可能为空所以数据就变成了双流join,甚至是多流join。问题原因:采用left join导致数据回撤,然后同一个主键数据产生重复是采用inner join 还是 outer join,具体区别见Flink Sql教程(5)_狄杰的博客-CSDN博客_connector.startup-mode由于此处关联可能存在键值为空匹配不到的情况,采用了很多left join,..
2021-10-12 13:56:16
3310
原创 犹豫?树立目标-制定执行计划-敢于面对结果
做一件事情的时候,要定一个目标,在项目临期,或者是deadline的时候没有达到目标,那也要面对结果。1、首先就是先进行判断,后续结局逆转的可能性,如果短时间内没法改变结果,没有dada
2021-05-28 10:34:33
258
原创 LabelEncoder、OneHoeEncoder处理多列数据时使用注意事项
在进行模型训练的时候会对数据进行统一的预处理,但是在生产部署的时候,模型需要数据按照数据清洗的流程进行转化,但是此时就会遇到一个问题,一列值进行LabelEncoder的时候,需要进行fit_transform一次,多列不就意味着需要多个LabelEncoder.也就是说,必须要把这些LabelEncoder进行保存,然后在生产调用过程中,加载这些LabelEncoder进行逐列的处理。这种形式确实有一定的弊端,那就是需要保存多个LabelEncoder模型那该如何进行权衡呢?首先数据应..
2021-04-15 11:56:02
3000
3
原创 投资笔记6-香港卡乱象摸鱼
最近折腾办理香港民生卡港美市场打新必备港卡一步步道来。市场上很多办卡都是高收费模式,我觉得这种是不合理的,毕竟银行是不收费的。但是为什么办卡还是需要这么多钱通道费呢?那说明这个通道费值钱,也就是这个办卡的消息以及渠道值钱,否则只能自己亲自去香港柜台了,无奈疫情出不去哈。也就说明有人为这种渠道资源付费,这也符合时代趋势,掌握渠道,掌握一手信息,就有变现的可能。同样我也做了个尝试,就是我上午办完港卡后,在群里介绍了下办卡的流程,以及条件,就有人加我那么实验机会来了,咨询以及推荐收
2021-03-31 18:09:44
310
原创 车险经营策略总结
一、车险业务概览车险业务类型可以分为三类:新保,转保,续保车险业务渠道可以分为两类:2B,2C车险业务模式可以分为三类:代理,电销,直营车险业务品质指标主要有:保费规模,赔付率,费用率,历年制边际,出险频次,案均赔款车险如何改善业绩:规模,费用率,赔付率二、想要提升保费规模,就必须先了解规模影响的因素有哪些?1、提升自营平台流量,做好留资方便后续电销触达2、提升外部平台合作导流,并做好社群营销3、提升历史名单,续保转化率,脱保名单赢回4、提升2B流量,进行企业合.
2021-03-16 16:24:42
832
原创 网约车里程引发的思维方式的思考
两个人讨论问题,经常会表达自己的观点,或者是针对某个现象说出自己的理解。如果说两个人的思维都是线性思维,就很难达到共识。比如A给出一个结论,说网约车里程等级3~9档位的进行拦截,1,2,10这三挡进行放行。B肯定不同意A这个结论,为什么,这个结论不好直观的理解啊,反常识的结论,从先验角度来讲,开车越多越危险,但是为什么最后一档反而在规则之外。先验认知确实符合常规的理解,但是认知不足,这个理解是不是不完全正确了,就会有特例出现,这种特例就需要解释性。为什么:因为这种人可能是专职司机,对路况
2021-03-11 14:24:34
286
原创 人性的弱点
贪婪恐惧,侥幸心理,认知不足,不够专一,没有及时止损贪婪,没有认识到大浪已经见顶正要逐渐褪去,看电视剧成瘾,玩游戏没有节制侥幸,博反弹恐惧,下跌恐慌抛售,目前令人,令人恐怖的事情暂时不认知,没有透彻的研究一个领域,没有在多个领域融会贯通专一,在某个领域达到专家水平止损,在认知不足做出错误决定之后,或者是外部环境变量不利...
2021-03-10 14:05:22
243
原创 投资理财5-上帝视角看待问题&学习方法论
上帝视角 & 学习路径这两者之间的关系,上帝视角可以理解为道,学习方法论可以理解为术,是术重要还是道重要呢?显然是两者都很重要,两者是相辅相成的,上帝视角指导你发现学习路径,但是如何能拥有上帝视角,还是向道者看齐,学习优秀的人如何看待问题。上帝视角判断一件事能否成功的方法,一种是后视镜,一种是上帝视角。后视镜有明显的不足,只有事情发生之后才能通过总结需要怎...
2021-02-25 13:42:36
461
1
原创 投资笔记4-投资风险认知
微博 Qzone 微信 投资笔记4-投资风险认知原创卓伟小跟班2021-01-23 08:13:54今天这个话题,主要源于和其他人交流得到的一些启发,明明知道不投资钱也会相对相对贬值的,为什么不去做投资呢,明明知道投资是可以赚钱,为什么别人就不去做呢,难道是跟钱过不去呢,还是迈不过风险这道坎呢?要是我的话,本来就没啥钱,为了改变命运,我肯定会尝试一下。认识风险,认清自己但是想想我是怎么一路走过来的,然后对比了一下,总结了下对投资接收程度的差异主要来自于以下三点..
2021-01-23 11:49:31
376
原创 投资笔记3-建立资产认知
https://www.toutiao.com/i6918759419811627531/最近在研究外汇交易导致几天的停更。哈哈,之后有稳定收益再普及相关的知识。说到投资,有很多方法,比如集邮,金石玉器投资,店铺投资,做生意等。但是今天主要聊聊常见的流动性相对比较好的资产投资:1)基金投资,2)股票投资,3)房地产投资。从会计角度来讲,一个人的财富=资产-负债,财富既然受到两个因素的影响,那么如果想要让自己变得富有,就必须想办法来开源节流,但是这只是常规做法。但是一个有财商的人会有其他的方法来实
2021-01-21 22:00:44
1445
原创 投资笔记2-从小白到理财达人的成长之路
https://www.toutiao.com/i6916533117813588492/总结下自己的学习历程,走的路有的对有的错,走对了路不要得意,之后的路还很长,走错的路就当是迷途知返,继续整装前行,迎接光明。走对的路有:1、读价投书籍并思考,主要是学习前人成熟的投资方案,可以打通长期盈利的底层逻辑,让自己成为掌握 2、关注公司研究的公众号,别人提供的是研究方法,也能有效的筛选好公司,自己也能学习分析方法 3、同他人交流,有效的将自己所学知识表达出来,从而将所学的知识内化为认知 4、.
2021-01-12 10:44:28
384
原创 投资笔记1-每股两千多的茅台是否敢买
https://www.toutiao.com/i6916142256026108420/投资笔记-每股两千多的茅台是否敢买卓伟小跟班2021-01-10 22:54:44最近的股市行情迎来了开门红,但是值得庆幸的不是股市的涨跌,而是自己对股市的认知的提升,对商业模式的理解,对可持续赚钱方式的理解,而非短线的追涨杀跌。贵州茅台1月10号股价今天先从A股市值和每股单价都排名第一的贵州茅台谈起,我不知道大家怎么看待贵州茅台的股价,但是五年前的刚开户,看了肯定是会躲得远远,每股这么贵跌
2021-01-10 23:07:16
271
1
原创 帆软可视化方案设计
在此帮朋友打个广告,朋友做帆软一级供应商,提供帆软产品以及可视化解决方案咨询服务目标人群:1、可视化需求调研的朋友:可视化演示地址,http://demo.finereport.com/decision/login?origin=02edab18-2a57-4949-a290-7f631b8ccaf92、帆软可视化需求支持,请联系我WX:SpringBreeze1104...
2020-10-21 14:45:51
947
原创 车险业务场景合作模式
一、目前探索出的显著因子:互联网消费行为等 驾驶行为因子,高速行驶合作形式1、驾驶行为因子:评驾科技2、汽车车抵押:灿谷,美利金融3、车型车系因子车险分:精励联讯4、造车新势力合作新产品:蔚来,威马,小鹏汽车特,斯拉5、基于里程的评分:车政通公里保,数据宝6、基于货车评分的:中交兴路7、基于风险识别兜底的货车:G78、基于新能源汽车的电池等创新产品:北理新源9、基于车辆零部件查询的客户理赔反欺诈辅助核保:车三百10、车险运营性质:好车主三、主要渠..
2020-09-27 17:47:50
1193
原创 python高级代码块
# Get number of unique entries in each column with categorical dataobject_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))d = dict(zip(object_cols, object_nunique))# Print number of unique entries by column, in ascending ordersort.
2020-08-20 21:11:12
1319
1
原创 docker 安装社区版gitlab-ce存在的问题
# docker 安装,gitlab镜像拉取步骤跳过docker 拉取镜像之后,后台启动运行gitlab,这里采用的是中文汉化镜像,建议使用社区镜像,原汁原味更好.docker run \--hostname 172.0.1.46 \--detach \--publish 8443:443 \--publish 8090:80 \-p 10085:22 \--name gitlab \--restart unless-stopped \-v /mnt/gitlab/
2020-06-01 16:19:45
697
原创 github or gitee or gitlab
1. githubManaging access to your personal repositoriesYou can give people collaborator access to repositories owned by your personal account.If you're using GitHub Free, you can add unlimited collaborators on public and private repositories.现在使用免费.
2020-05-18 20:26:20
1886
原创 python采用进程池消费队列消息
# 从pdf文件转文本是一个cpu以及io负载都很高的过程# 为了提高文本的转化效率,采用多进程提高转化效率# coding=utf-8import multiprocessingimport timeimport pdfplumberimport osmin_pdf_dir, max_pdf_dir = "2017-01-03", "2017-01-31" # []base...
2020-05-07 13:55:05
683
原创 hive分区锁问题导致insert overwrite table 卡死
hiveshow locks ;可以展示表以及分区级别的锁show locks table_name; 展示表级别的锁当分区写数据异常失败之后,采用unlock table table_name;并不能解决insert overwrite table partition卡死问题采用show locks,结果如下示例:7 db_name@table_name S...
2020-05-06 18:36:40
1690
原创 python 如何进行元组排序
python list 可以直接进行sort排序,默认是按照从小到大进行排序.现在有个需求:要按照元组的第一个元素进行升序,但是按照第二个元素进行降序如下是个取巧的办法,这里的100根据数值范围进行调整,思路是选择一个函数,对第一个元素是增函数,第二个元素是减函数# sorted(L)L = [(0, 2), (0, 12), (1 , 66), (1, 88)]L.sort(key=...
2020-02-03 09:00:06
1731
原创 Failed to read artifact descriptor for org.apache.XXX
[ERROR] Plugin org.apache.maven.plugins:maven-surefire-plugin:2.18.1 or one of its dependencies could not be resolved: Failed to read artifact descriptor for org.apache.maven.plugins:maven-surefire-pl...
2019-11-26 15:16:04
2132
1
原创 python stock learn
使用scikit-learn进行股票分析:https://blog.csdn.net/freewebsys/article/details/78973483LSTM对股票的收益进行预测(Keras实现) :https://blog.csdn.net/asialee_bird/article/details/89372950PythonStock(8):使用优矿web学...
2019-09-06 11:43:57
401
原创 pandas如何发现某列有异常值
在做pandas数据处理的时候,总是报错NaN,infinit,null等错误,但是不知是哪一个字段有问题,需要逐一排查这里的isinf是判断是否是无界限的,比如除以0的情况,还有就是isnan判断是否非数值.# np.any(np.isnan(postive_data))# np.all(np.isfinite(postive_data))for col in postiv...
2019-07-17 10:03:31
1134
原创 pandas 实现sql 多行转多列
posD.head(15)id hour labelPo 0 595941207920 0.0 27 1 595941207920 2.0 19 2 595941207920 4.0 22 3 595941207920 5.0 19 4 595941207920 6.0 2...
2019-07-07 22:09:55
1014
原创 clickhouse docker 化部署
mkdir /data1/superset cd /data1/superset git clone https://github.com/amancevice/superset.git cd /data1/superset/superset/examples/sqlite mkdir superset # 这个是SQLLite的数据文件,映射到Docker内部...
2019-06-12 20:23:21
1726
原创 spark history server 单独部署,作为微服务提供日志服务
场景:在spark history server部署的时候,一般在生产机器上,但是开发,或者是测试的时候,如果要做网络隔离,你就无法看到生产上的日志了,如果开放VPN访问生产集群,也是可以的,但是现在不开放了,如何解决查看spark日志的问题.打开history server的源代码:org.apache.spark.deploy.history.HistoryServer看个究竟....
2019-06-06 15:41:59
937
原创 authorize.AuthorizationException: User: livy is not allowed to impersonate
部署参考 livy安装:https://cloud.tencent.com/developer/article/1349537此外需要在hdfs core-site.xml 配置如下代理: <property><name>hadoop.proxyuser.livy.groups</name><value>*</value>&l...
2019-05-31 18:20:32
2498
1
原创 CM分发安装部署Zeppelin后无法启动
CDH 6.2.0 Zeppelin 安装部署编译 zeppelin parcels 参考:https://cloud.tencent.com/developer/article/1349543部署参考 livy安装:https://cloud.tencent.com/developer/article/1349537补充:重启CM Service monitor,否则安装的livy以...
2019-05-31 15:01:16
604
原创 Error response from daemon: Get https://registry-1.docker.io/v2/: proxyconnect tcp: dial tcp :443:
安装完docker,pull image或者是docker login 都需要访问外网,本文是采用代理的方式.但是依然没有成功,看看官网的 proxy的配置吧.HTTP/HTTPS proxyThe Docker daemon uses theHTTP_PROXY,HTTPS_PROXY, andNO_PROXYenvironmental variables in its st...
2019-05-30 16:37:36
15170
原创 为啥看不到kylin on spark的日志?
为啥kylin on spark的日志看不到,明明在运行时是能看到的,但是停止后就看不到了呢?在看下/user/spark/applicationHistory路径下根本没有kylin on spark 的app的日志.先屡一下思路,自己运行的正常的spark app停止后是可以看到日志的,但是kylin on spark 却看不到,说明这个不是yarn JobHistory Serve...
2019-05-29 16:34:12
701
原创 hbase region 下线,region server也全部下线,hmaster 依然正常.
Call exception, tries=11, retries=31, started=48384 ms ago, cancelled=false, msg=Call to hzd-t-vbdl-01/10.253.76.213:16020 failed on connection exception: org.apache.hbase.thirdparty.io.netty.channel....
2019-05-29 11:34:06
2390
原创 如何更改cloudera-scm-server默认日志路径?
如何更改cloudera-scm-server日志目录 由于CM安装的所有的组件,路径默认是/var/lib或者是/var/log,如果系统盘太小的话,会一直有警告,看起来太烦了.有两种方式解决:1.直接选择抑制改告警2.在CM web ui所有能配置的/var/log 基本上我都修改了,甚至连 /tmp堆转储也都改了.手动清理历史日志/var/log/.上面...
2019-05-29 11:00:14
4637
1
原创 hbase bucket size 太小导致启动失败
Region server exitingjava.lang.RuntimeException: Failed construction of Regionserver: class org.apache.hadoop.hbase.regionserver.HRegionServer at org.apache.hadoop.hbase.regionserver.HRegionS...
2019-05-24 14:25:11
1172
原创 由于端口被修改导致的DataNode 重启失败
在配置kerberos认证失败后,打算恢复原始的状态, DataNode 重启失败, 经过排查发现错误日志如下,判断有可能是端口拒绝访问导致的,查看hdfs的 端口配置发现有两处变动的地方,使用恢复按钮进行恢复,之后重启即可.(此处是CM默认的配置,和HDFS原始的端口号不完全一致) Exception in secureMainjava.net.Socke...
2019-05-23 18:54:23
805
原创 Caused by: java.lang.IllegalArgumentException: bad journal id: qjournal://
CM 6.2.0 cdh hdfs 配置HA方法:CDH 5.0 和更高版本不支持使用共享 NFS 挂载的 HDFS High Availability。建议您将 HDFS HA 设置切换为 Quorum-based Storage。必须将 HDFS HA 设置切换为 Quorum-based Storage,然后再尝试升级至 CDH 5。 Suppress...一直是个警告,真的是很烦啊...
2019-05-16 18:22:53
2351
useragent解析逻辑&手机品牌匹配.txt
2021-11-22
IDEA 创建scala工程并打指定的依赖包
2017-08-11
hbase自定义Comparator进行数值比较
2016-11-07
shakespeare.json&logs;.jsonl.gz&accounts;.zip
2018-01-10
kafka-manager 1.3.3.15
2018-01-08
百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全
2017-10-16
数据仓库工具箱 维度建模权威指南 第3版
2017-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人