自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 201312-2 ISBN号码

一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括9位数字、1位识别码和3位分隔符,其规定格式如“x-xxx-xxxxx-x”,其中符号“-”是分隔符(键盘上的减号),最后一位是识别码,例如0-670-82162-4就是一个标准的ISBN码。ISBN码的首位数字表示书籍的出版语言,例如0代表英语;第一个分隔符“-”之后的三位数字代表出版社,例如670代表维京出版社;第二个分隔之后的五位数字代表该书在出版社的编号;最后一位为识别码。

2022-09-30 14:14:33 194 1

原创 201312-1 出现次数最多的数

给定n个正整数,找出它们中出现次数最多的数。如果这样的数有多个,请输出其中最小的一个。

2022-09-23 15:28:56 110

原创 风控建模师面经分享(难度:简单)

自我介绍常规自我介绍,工作内容+项目简介+技能介绍针对工作项目提问怎么确定label值?迁移率分析+账龄分析best_ks iv值表现怎么样?基于iv的表现做了什么操作?为什么使用GBDT+RF,有考虑过模型的解释性吗?项目中自己的创新?当时回答了一个写了爬虫对手机号归属地缺失值填充和GBDT对特征衍生 面试结束后想,模型建立流程都是一样的,但是其中的特征工程、模型策略不都是创新点吗,我想可能这个问题就是看我是不是就是个简单的掉包侠,感觉这个问题没回答好。…项目问题就记得这么多,其他给忘了.

2020-09-04 14:43:34 552

原创 淘宝用户行为分析+python可视化

目录背景csv文件导入MySQL数据库中背景数据源 阿里巴巴云天池数据集介绍数据量可以看的出来数据量级还是很大的,只用python处理分析会很慢,所以我打算用MySQL作为数据库,储存样本集,python连接mysql进行可视化分析。分析的主要方向如下整体指标分析,交易漏斗指标分析用户行为指标分析用户价值分析商品关联性分析csv文件导入MySQL数据库中打开mysql command line client建立数据库create databases taobao_

2020-08-30 20:07:04 2251

原创 Kaggle-酒店预定需求分析

目录背景EDA分析了解样本集基本信息数据预处理酒店运营状况分析用户行为画像渠道分析EDA分析总结基于LR预测旅客取消订单的概率背景样本集:hotel_bookings.csv目标:利用python可视化对数据集进行可视化分析,并针对酒店的取消场景建模,预测顾客取消订单的概率EDA分析主要从酒店运营状况,用户行为画像、酒店预定渠道这三个维度分析了解原数据集了解样本集基本信息数据预处理缺失值填充脏数据清洗酒店运营状况分析df_ = df.groupby(['hotel','i

2020-08-18 14:26:53 2376 4

原创 推荐系统之协同过滤推荐

目录协同过滤算法协同过滤的核心基于项目的协同过滤算法基于用户的协同过滤算法隐喻义模型参考协同过滤算法先介绍一下集体智慧集体智慧(collective intelligence)的核心原理是指在大量的人群的行为和数据中收集答案,帮助你对整个人群的到统计意义上的结论,这些结论是在单个个体上无法得到的,他往往是某种趋势或者人群中共性的部分。协同过滤是利用集体智慧的一个典型方法。协同过滤核心原理是指一般在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西

2020-08-06 22:38:21 503

原创 特征提取之文本分析(侧重从文本中挖掘有价值的特征)

目录背景文本分词N-gram特征统计N-gram中的概率计算N-gram的用途N-gram中N的确定参考关于作者背景因为平时建模过程中会碰到一些文本类的特征,所以整理了下该怎样处理文本特征,以及怎样做文本特征类的衍生,涉及到NLP的内容很浅显。如果想深入学习NLP,请移步到大神微博…文本分词利用python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是否有强联系之类的问题。统计分词word前后word的分布概率,通过P(pre_word

2020-08-06 16:02:20 465

原创 支持向量机SVM相关总结

目录)简介算法原理算法特性参考简介支持向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大时它有别于感知机;SVM还包括核技巧,这是他成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的学习算法就是求解凸二次规划的最优化算法算法原理SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示

2020-08-05 22:53:08 1159

原创 贝叶斯算法小总结

目录贝叶斯定理朴素贝叶斯分类半朴素贝叶斯分类独依赖估计常见的版朴素贝斯算法SPODE和TAN优点&缺点参考贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故称为贝叶斯分类。贝叶斯定理已知某条件概率,如何得到两个时间交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)P(B∣A)=P(A∣B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)​朴素贝叶斯分类朴素贝叶斯(分类器)是一种生成模型

2020-08-05 15:01:59 496

原创 数据降维算法总结(LDA&PCA)

目录LDAPCALDAPCA#https://blog.csdn.net/qq_17249717/article/details/82349860?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLear

2020-08-05 00:41:43 1367 2

原创 KNN算法小总结,小白必会系类

目录

2020-08-04 17:59:40 359

原创 五种聚类算法思想总结

目录聚类算法K-means聚类算法算法思想代价函数优点缺点改进参考聚类算法聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相同的属性和特征,不同组数据之间的属性或者特征相差就会比较大。K-means聚类算法算法思想K-means算法的思想比较简单,假设我们要把数据分成K个类随机选取k个点,作为聚类中心;计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就形成了k个簇再重新计算每个

2020-08-04 12:04:26 4104

原创 离群点检测方法总结

目录Isolation Forest定义算法流程参考异常检测(anomaly detection),或者又被称为离群点检测。异常数据分样本中大多数数据不太一样异常数据在整体数据样本中占比比较小异常数据的不同,可以利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度Isolation Forest孤立森林算法是一种适用于连续数据的无监督异常检测方法。与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同,孤立森林算法通过对样本点的孤立来检测异常值。具体来说,该

2020-08-03 17:34:53 1156

原创 集成算法总结

目录BaggingBoostingstacking常用的集成算法随机森林xgboostAdaboostGBDTLightgbm集成算法是构建多个学习器,通过一定策略结合来完成学习任务。正所谓三个臭皮匠顶一个诸葛亮,当弱学习器被正确组合时,我们能得到更精确、鲁棒性更好的学习器。由于个体学习器在准确性和多样性存在冲突,追求多样性势必要牺牲准确性。这就需要将这些“好而不同”的个体学习器结合起来。而研究如何产生并结合个体学习器也是集成学习研究的核心。集成学习的思想时将这些弱学习器的偏置或方差结合起来,从而创建一

2020-08-03 02:23:30 1941

原创 决策树分类与回归总结

目录决策树决策树

2020-07-24 00:57:13 2290 1

原创 安装tabpy和tableau使用python脚本

目录tableau2019.1 安装tableau可视化教程Tabpy简介Anaconda安装与配置Tabpytableau2019.1 安装下载与破解方法提取码:329utableau可视化教程教程Tabpy简介TabPy实现了tableau的计算字段里嵌入python或R代码(可加入一些机器学习或数据处理的库)。它是一个基于Tornado和其他Python库的Python进程,将计算字段嵌入的代码传输到后台(web后台基于Tornado),由后台计算完后(可调用第三方库如机器学习相关的库

2020-07-21 11:30:17 1536 1

原创 总结线性回归和逻辑回归原理以及面试题

目录线性回归概念计算推导评估方法逻辑回归线性回归概念计算推导评估方法LDA 数据不平衡 多分类问题逻辑回归

2020-07-18 17:29:16 876 1

原创 机器学习模型性能评估指标总结以及python实现

模型性能指标总结目录新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入目录你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Mar

2020-07-16 16:44:36 2045 5

原创 欠拟合/过拟合/正则化

欠拟合和过拟合目录新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入目录你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Mark

2020-07-14 15:13:15 238

原创 了解一下机器学习建模

了解一下机器学习建模什么是机器学习机器学习的分类监督学习无监督学习半监督学习强化学习机器学习建模流程什么是机器学习定义: 机器学习是一门研究如何让计算机不需要明确的程序也能具备学习能力的学科。这么说可能有点太笼统,简单举个小例子,方便大家理解机器学习的分类监督学习无监督学习半监督学习强化学习机器学习建模流程...

2020-07-07 01:50:52 398

中国城市代码对照表.xlsx

中国身份证省份城市对照表格,内包含身份证前四位对应城市,前两位对应省份,经纬度对应,前六位对应的县镇

2020-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除