自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 HADOOP学习笔记——JAVA使用API将本地文件上传到HDFS

HDFS API详解:https://www.cnblogs.com/alisande/archive/2012/06/06/2537903.htmlHadoop HDFS 文件访问权限问题导致Java Web 上传文件到Hadoop失败的原因分析及解决方法:https://blog.csdn.net/bikun/article/details/25506489?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachine

2020-05-19 20:30:40 1128

原创 Hadoop学习笔记——集群搭建

安装:VMware:https://www.cnblogs.com/nongzihong/p/10475753.htmlCentOS安装:https://blog.csdn.net/babyxue/article/details/80970526

2020-05-09 11:05:12 290

原创 风控建模笔记

特征部分:好的特征:1、稳定性高 2、区分度高 3、差异性大 4、符合业务逻辑

2020-04-12 14:25:04 584

原创 K8s常用命令

K8s一些命令:通过yaml文件创建:kubectl create -f xxx.yaml (不建议使用,无法更新,必须先delete)kubectl apply -f xxx.yaml (创建+更新,可以重复使用)通过yaml文件删除:kubectl delete -f xxx.yaml查看kube-system namespace下面的pod/svc/deployment 等等(-o wide 选项可以查看存在哪个对应的节点)kubectl get pod /svc/depl

2021-01-07 10:56:08 471

原创 Docker

常用1. 查看都有哪些镜像:docker images2. 运行你想要查看的镜像(docker run + 镜像id或者是镜像名称):docker run imageID/imageName3. 查看都有哪些容器:docker ps -a4. 进入容器(containerID 是容器的ID):docker exec -it containerID /bin/bash5. 查看都有哪些目录(这里只能用ls命令,ll命令没用):lsdocker安装与卸载脚本安装使用脚本安装 do

2021-01-07 10:53:53 224

转载 风控特征—时间滑窗统计特征体系

风控特征—时间滑窗统计特征体系风控业务背景俗话说,路遥知马力,日久见人心。在风控中也是如此,我们常从时间维度提取借款人在不同时间点的特征,以此来判断借款人的风险。在实践中,这类特征通常会占到 80% 以上。由于是通过时间切片和聚合统计函数来构造,因此一般被称为时间滑窗统计特征。本文的主要意义在于:对于需要入门风控建模的同学而言,希望能帮助你快速上手特征工程。 对已经有特征工程经验的同学而言,希望能带给你一些风控业务理解。目录Part 1. 观察期、观察点及表现期Part 2. RFM

2020-12-28 14:28:06 640

原创 工作记录

3.18/3.20/3.21人脸自动打卡封装成系统1)将人脸打卡代码从语音机器人中分离出来并封装固化成Class,通过配置文件添加代码中的固定参数。2)能通过excel快速、便捷地为系统添加新需要打卡的人3)摄像头开启,自动打卡,打卡成功后一段时间内禁止再次打卡(这个一段时间参数在setting.py中配置)。4)将每个已打卡记录存储成excel,每条记录至少包括:时间(精确到时分秒...

2019-03-23 14:38:17 301

原创 BFS,DFS

1.深度优先搜索(DFS)基本步骤:1.从图中某个顶点v0v0出发,首先访问v0v0;2.访问结点v0v0的第一个邻接点,以这个邻接点vtvt作为一个新节点,访问vtvt所有邻接点。直到以vtvt出发的所有节点都被访问到,回溯到v0v0的下一个未被访问过的邻接点,以这个邻结点为新节点,重复上述步骤。直到图中所有与v0v0相通的所有节点都被访问到。3.若此时图中仍有未被访问的结点,则另...

2019-03-21 14:19:46 203

原创 数据挖掘

https://www.cnblogs.com/codetker/p/4607442.html

2019-03-19 16:52:37 132

原创 (私)面试记录

声网_数据挖掘(2019.1.16)过年才告诉凉凉‌快排复杂度 最差情况 ‌linux 操作,远程登录。软连接,硬连接 ‌python 数据结构,库 列表,元祖,字典,集合‌python列表和数组区别 python中的list是python的内置数据类型,list中的数据类不必相同的,而array的中的类型必须全部相同。在list中的数据类型保存的是数据的...

2019-03-19 12:28:17 298

原创 NLP学习笔记

问答系统1、分类;2、匹配;2、翻译;4、结构化预测;5、马尔可夫决策测过程。NLP表示方法one-hot vector:难以发现词之间的关系,维度灾难。分布式表示:基于矩阵 基于神经网络wordembeddingNLP的文本处理1、文本数据的基本体征提取:词汇数量、字符数量、平均字长、停用词数量、特殊字符数量、数字数量、大写字母数量2、文本数据的基本预处理:...

2019-03-04 00:23:30 645

原创 算法问题中的code题目

目录Top K问题最长公共子串最长公共子序列最长递增字串(O(N))最长无重复子串O(N)实现sqrt()函数从数组A中找出所有和为S的两个数的索引无序数组的中位数 (利用小顶堆)超过数组个数一半的数将一个二维的n*n的数组,逆转90度,空间复杂度是O(1)。提示:剥洋葱般,一圈圈的从外向内逆转90度一个大小为N的数组,里面的值代表的是股价,求一次买入...

2019-02-24 12:47:09 372

原创 面试问题

其他的面试问题:https://www.jianshu.com/p/4a3c5e34d0f8?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation项目,数据特征怎样选择的?怎样表示的?模型的选择?当时的模型参数是多少?结果效果如何? 项目,特征工程和...

2019-02-21 18:13:41 1655

原创 音乐推荐

数据集:https://www.upf.edu/web/mtg/lastfm360k1. userCF算法主要包括两个部分:https://blog.csdn.net/bbbeoy/article/details/78646537①:找到和目标用户相似的用户集合②:找到这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。首先计算两两用户相似度。协同过滤算法主要利用行...

2019-02-16 19:25:18 999

原创 代码Tips

在Python中,字符串是不可变类型, sorted(key=lambda): setdefault函数的用法及理解 dict.setdefault(key, default=None)功能:如果键不存在于字典中,将会添加该键并将default的值设为该键的默认值,如果键存在于字典中,将读出该键原来对应的值...

2019-01-30 19:01:23 442

原创 数据挖掘笔记(写给程序员的数据挖掘实践指南)

原书:http://www.guidetodatamining.com/一、协同过滤(CF)——寻找相似用户曼哈顿距离(数据稠密:几乎所有属性都没有0值,且属性值大小十分重要)                欧式距离(明氏距离)(数据稠密:几乎所有属性都没有0值,且属性值大小十分重要)               皮尔逊相关系数(取值【-1,1】,1表示完全相关,-1表示完全不...

2019-01-29 20:03:48 902

原创 刷题

Index of itemLeetcode:104. 二叉树的最大深度107. 二叉树的层次遍历 II108. 将有序数组转换为二叉搜索树110. 平衡二叉树111. 二叉树的最小深度112.路径总和118.杨辉三角119.杨辉三角Ⅱ121.买卖股票的最佳时机122.买卖股票的最佳时机125.验证回文串136.只出现一次的数字141.环...

2019-01-03 16:39:29 1093

原创 算法导论--学习笔记

第一课时:Insertion sort(插入排序)分析算法Merge sort(归并排序)第二课时:渐进符号,递归和解法渐进符号解递归式第三课时:Divide-and-Conquer——分治法: Insertion sort(插入排序):def insertion_sort(list): if len(list) <= 1: ...

2018-11-20 21:43:28 162

原创 算法图解知识点整理

二分查找:def binary_search(list, item): low = 0 high = len(list)-1 while low <= high: mid = int((low + high)/2) guess = list[mid] if guess == item: ...

2018-11-06 15:47:07 197

原创 八大排序--整理

查找既希望较快的查找又便于线性表动态变化的查找方法是哈希法查找。二叉排序树查找,最优二叉树查找,键树查找,哈希法查找是动态查找。分块、顺序、折半、索引顺序查找均为静态。分块法应该是将整个线性表分成若干块进行保存,若动态变化则可以添加在表的尾部(非顺序结构),时间复杂度是O(1),查找复杂度为O(n);若每个表内部为顺序结构,则可用二分法将查找时间复杂度降至O(logn),但同时动态变化复杂度则...

2018-11-06 14:36:31 1500 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除