skyHdd
码龄12年
关注
提问 私信
  • 博客:489,943
    489,943
    总访问量
  • 144
    原创
  • 1,948,408
    排名
  • 304
    粉丝
  • 1
    铁粉

个人简介:deep work,simple life

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2013-05-06
博客简介:

小狐狸

博客描述:
EE转机器学习(深度学习)欢迎一起交流学习~~
查看详细资料
个人成就
  • 获得359次点赞
  • 内容获得109次评论
  • 获得1,662次收藏
  • 代码片获得1,289次分享
创作历程
  • 1篇
    2021年
  • 64篇
    2020年
  • 24篇
    2019年
  • 56篇
    2018年
成就勋章
TA的专栏
  • 数据挖掘建模 算法实现篇(python)
    6篇
  • 数据分析可视化
    1篇
  • 用户画像
    1篇
  • 剑指offer
    1篇
  • 数据挖掘资源整理篇
    10篇
  • 数据治理
    5篇
  • 数据挖掘建模 原理推导篇
    3篇
  • 利用数据进行数据分析 第二版
    11篇
  • Git学习
  • 数据处理
    10篇
  • CDA数据分析
    15篇
  • 思维方式
    2篇
  • 解决Python相关的问题
    31篇
  • 数据结构与算法-Python实现
    13篇
  • python基础知识
    14篇
  • 剑指offer python实现
    7篇
  • 深度学习框架
    4篇
  • 数据分析与机器学习实战
    21篇
  • 深度学习算法
    2篇
  • 计算机基础知识
    2篇
  • 算法原理
    1篇
  • 数理统计
    2篇
  • 数据库学习
    4篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据分析 | 异常数据识别小结

这里写目录标题1. 定义与使用场景定义使用场景数据异常的原因2. 单变量数据异常识别2.1 简单统计量分析2.2 三倍标准差2.3 box-cox转化+3倍标准差基本介绍基本公式Box-Cox优势python 实现2.4 箱线图3. 时间序列数据异常识别3.1 设置恒定阈值3.2 设置动态阈值-移动平均法3.3 STL数据拆解法4. 多变量异常数据识别4.1 孤立森林模型基本介绍算法逻辑介绍1. 定义与使用场景定义异常检测,即发现一组数据点中和大多数数据不同的数据点。如果你要去网上搜索英文文献,可以用
原创
发布博客 2021.04.12 ·
4325 阅读 ·
3 点赞 ·
0 评论 ·
32 收藏

数据分析必备之sql细节

这里写目录标题条件统计读取jason字符串数据字符串转化jason格式';'转义分组拼接字符串拼接判断字符串是否含有目标字符串str1……返回字符串的位置,没有返回0字符串替换条件统计select col1,col2,sum(case when condition1 then value1 else value2)group by col1,col2读取jason字符串数据select action[‘key’],action.key,action.data[‘page’] from maidia
原创
发布博客 2020.11.25 ·
866 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

数据标准化方法论思考总结

数据标准化总结数据标准化总结元数据管理目录式实现 VS 词素管理应对策略数据字典制定步骤术语解释小例子实施步骤标准化对象收集词素拆分标准单词、标准用户定义数据标准结构词素管理的思考数据词典(数据字典)QA数据标准化总结元数据管理目录式实现 VS 词素管理目前各个公司或多或少都存在数据标准问题,英文名称中后缀相同,中文名称不同;英文……而且随着业务数据的增加,数据标准问题会像滚雪球一样越积越多。基于越来越多的数据标准问题,目录式管理元数据(IBM目前就是目录式的),元数据语义层和数据模型建模的关联很
原创
发布博客 2020.11.12 ·
1691 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

python数据分析作图细节

python数据分析作图细节seabornbarplot条形图countplot计数图distplotHistograms直方图Kernel density estimaton核密度估计distplot()kdeplot()Fitting parametric distributions拟合参数分布seaborn官方链接:http://seaborn.pydata.org/index.htmlSeaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界
原创
发布博客 2020.11.10 ·
652 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

用户画像理解和方法论

用户画像的技术和方法论前言什么是用户画像(what)什么是用户画像常用用户画像什么是商品画像为什么需要用户画像以及精细化运营(why)如何构建商品和用户画像(how)举例(方法论)商品&用户画像的应用总结前言用户画像也是近几年比较热的一个词,不过很多小伙伴对于画像的认知还只是标签化的层面,或者是只是利用其做一些简单的分群分析;如何全面地认知并做系统性地尝试,背后有非常多的点需要我们深思挖掘。今天就根据自己的一些浅见进行分享,因为与商品画像的联系,中间也会掺杂一些商品画像的知识。今天的分享希望
原创
发布博客 2020.10.27 ·
2155 阅读 ·
1 点赞 ·
1 评论 ·
6 收藏

CDA level 2 案例1实现

案例相关代码:常用库导入# 导入相关库import numpy as npimport pandas as pdimport seaborn as snssns.set_style("whitegrid") import matplotlib.pyplot as plt%matplotlib inlinefrom matplotlib.pylab import rcParamsrcParams['figure.figsize'] = 12, 4import xgboost as
原创
发布博客 2020.08.11 ·
813 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Error 细节

1、TypeError: only integer scalar arrays can be converted to a scalar indexhttps://www.cnblogs.com/cloud-ken/p/8465494.html使用np.random.choice创建list,使用这个List作为Data[] List对象的索引。出现TypeError: only integer scalar arrays can be converted to a scalar index错误。
原创
发布博客 2020.07.13 ·
194 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据平滑 log1p

数据平滑处理 – log1p( ) 和 exmp1( )在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量.数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。平滑问题很容易处理掉,
原创
发布博客 2020.07.10 ·
1043 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

类别不均衡(目标变量)

查看数据比例from collections import Counter# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42
原创
发布博客 2020.07.09 ·
1490 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

jupyter notebook命令细节

配置生成配置文件jupyter notebook --generate-config复制代码浏览器方案:1、打开文件 jupyter_notebook_config.py (C:\Users\Administrator.jupyter 中) 2、找到 # c.NotebookApp.browser = '''' 3、添加: import webbrowse
原创
发布博客 2020.07.08 ·
1029 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

sklearn 算法调参 决策树调参

scikit-learn决策树算法类库介绍scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结,重点比较两者参数使用的不同点和调参的注意点。Deci..
原创
发布博客 2020.07.05 ·
1007 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

sklearn 细节总结

sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于
原创
发布博客 2020.06.23 ·
262 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

训练集、验证集和测试集

训练集、验证集和测试集
原创
发布博客 2020.06.23 ·
3461 阅读 ·
3 点赞 ·
0 评论 ·
17 收藏

字节跳动 数据分析 一轮技术面

第一写面经,记录一下这次难得的面试,感谢字节跳动的面试官。除了有一丝遗憾,自己在很多知识点的表达方面有所欠缺,没有用结构化思维去清晰的表达,也希望不要打乱自己学习的节奏,在数据分析方面不断提升自己的能力。总体情况时间:2020.06.08面试时间:1小时10分钟面试感受:技术面的面试官很有字节跳动的特点,不断引导你,帮你总结。反思自己的面试过程,发现数据分析的逻辑思维还需要进一步总结,形成分析的框架。同时,在表达能力上还需要多一些锻炼。再夸一夸字节的面试官:1、全程引导你回答问题,就算你没有回
原创
发布博客 2020.06.08 ·
4157 阅读 ·
5 点赞 ·
0 评论 ·
25 收藏

SQL 窗口函数

SQL 窗口函数引入概念基本语法窗口函数注意事项理解窗口函数特点使用场景开窗函数和聚合函数的区别窗口函数和group by子句的区别排序窗口函数partition by vs order by专用窗口函数区别聚合窗口函数窗口函数计算移动平均框架:移动平均使用场景面试经典题1、面试经典排名问题2、面试经典topN问题每组最大的N条记录3.如何在组里比较引入概念窗口函数:窗口函数也称为OLAP函数(Online Anallytical Processing,联机分析处理),意思是对数据库数据进行实时分析处
原创
发布博客 2020.06.05 ·
717 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

机器学习问题解决架构模板(通用)

出处:http://blog.csdn.net/han_xiaoyang/article/details/52910022通用机器学习流程与问题解决架构模板前言数据标签的种类评估指标库机器学习总体框架前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。链接:https://www.linkedin.com/pulse/approaching-almost-any-machine-learning-problem-abhishek-thakur/一个中等水平
原创
发布博客 2020.06.04 ·
559 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

特征选择:贪心算法和其评价矩阵的AUC

"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d
原创
发布博客 2020.06.04 ·
1295 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

k-折划分训练集和测试集

将数据分成训练集和验证集“必须”根据标签进行。遇到分类问题,使用分层分割就对了。在Python中,用scikit-learn很容易就做到了。(CV)遇到回归问题,一个简单的K-Fold分割就可以了。当然,也还有很多复杂的方法能够在维持训练集和验证集原有分布的同时将数据分割开来。这个就留给读者们自己去练习啦。k-折交叉验证 。 k-折交叉验证将训练集划分为 k 个较小的集合(其他方法会在下面描述,主要原则基本相同)。 每一个 k 折都会遵循下面的过程:将 k-1 份训练集子集作为 training
原创
发布博客 2020.06.04 ·
3819 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

数据分析数据流.zip

发布资源 2020.06.02 ·
zip

用户增长理解

用户增长公司:专用名词:1、CAC 用户获取成本2、LTV 用户的终生价值3、PBP 回收期:4、PMF 市场匹配:5、增长黑客AARRR:6、MVP(最小可行性产品):思考:1、产品从用户身上获取价值2、获客渠道成本越低越好3、LTV和CAC 与公司发展的关系4、PBP:花出去的用户获取成本可以在多长时间内回本不同的公司什么样的方式方法做用户增长1、初创公司:一定要先找到PMF2、爆发期公司怎么做? 满足黑客增长模型AARRR模型,多融资,傍巨头3、成熟期公司应该怎么做?公司:初创公司爆发型公司成
原创
发布博客 2020.06.01 ·
1032 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏
加载更多