自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (10)
  • 收藏
  • 关注

原创 各种排序算法

各种排序的方式本篇文章的主要是用python3.7的版本,来实现各个主要的排序方法。排序算法可以分为内部排序和外部排序。内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:快速排序快速排序使用分治法(Divide and conquer)策略来把一个序列(list)分为较小和较大的2个子序列,然后递归地排序两个

2021-05-20 13:52:59 96

原创 【翻译】Wide & Deep Learning for Recommender Systems--推荐系统的广泛深度学习

摘要通过将稀疏数据的非线性转化特征应用在广义线性模型中被广泛应用于大规模的回归和分类问题。通过广泛的使用交叉特征转化,使得特征交互的记忆性是有效的,并且具有可解释性,而然不得不做许多的特征工作。相对来说,通过从稀疏数据中学习低纬稠密词向量(embedding)特征,并应用到深度学习中,只需要少量的特征工程就能对潜在的特征组合具有更好的范化性。 但是当用户项目交互是稀疏和高纬数据的时候,利用了词向量(embeddings)的深度学习则表现得过于笼统(over-generalize),推荐的都是些相关性很低的

2021-05-25 11:45:11 459

原创 从python入门机器学习系列--2、Z 检验与 T 检验

均值对比的假设检验方法主要有 Z 检验和 T 检验,它们的区别在于 Z 检验面向总体数据和大样本数据,而 T 检验适用于小规模抽样样本。

2020-06-28 19:30:56 2671

原创 从python入门机器学习系列--1、Pandas速查手册中文版

对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。在第一次学习Pandas的过程中,你会发现你需要记忆很多的函数和方法。所以在这里我们汇总一下Pandas官方文档中比较常用的函数和方法,以方便大家记忆。同时,我们提供一个PDF版本,方便大家打印。Pandas速查手册中文版关键缩写和包导入在这个速查手册中,我们使用如下缩写:df:任.

2020-06-23 15:26:40 338

原创 Python批量更新模块的方法

     小编的环境为win10+python 3.6.5,其他的系统环境Mac或是Linux,python的版本在3.6.5以下是否适用,没有亲测过,请各位读者自行检验。    对于python库都有了更新,再用旧版本库可能已经不适合了,就想把所有的库都更新到最新版本。此时该怎么办?    以下的更新背景,默认为win10系统和python版本为3.6.5    以下分为三种情况:...

2018-07-23 10:04:16 6456 1

Yum安装包-包含了yum、yum-metadata-parse、yum-plugin-fastestmirror三个文件

centos官网上最新版本的Yum安装包-包含了yum-*.rpm、yum-metadata-parser-*.rpm、yum-plugin-fastestmirror-*.rpm,方便没有梯子的同学。

2023-02-28

Pandas速查手册中文版.pdf

对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。

2020-06-23

Loan Prediction 数据集(贷款预测)

Loan Prediction 数据集是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含614行13列个数据。

2020-06-15

身份证前6位识别--省份、城市、地区(2019年9月最新)

身份证前6位识别--省份、城市、地区(2019年9月最新)

2019-09-02

R语言编码风格指南

R语言编码风格指南,R语言编码风格指南,R语言编码风格指南

2018-12-19

Python PEP8 编码规范中文版

我翻译和整理了国际通用的PEP8编码规范 ,希望对大家日常的撰写、阅读、修改和维护代码有所帮助。

2018-12-19

吴恩达(机器学习策略)中文版

被网友称为实战技巧宝典、好用到感动、且拖稿一年多的网红新书《Machine Learning Yearning》,终于——完,工,了,“跳票王”吴恩达老师,这次终于要给新书画个圆满的句号了

2018-10-18

mnist手写体识别数据集下载

这个是tensorflow的mnist数据集,包含了训练集合、验证集合、测试集合

2018-08-21

Niek Sanders的Twitter情感语料库

在Twitter的情感分析数据集 包含1,578,627条分类推文,每行标记为1表示积极情绪,0表示负面情绪。我建议使用1/10的语料库来测试你的算法,而其余的可以用来训练你用来分类情绪的任何算法

2018-08-18

pyspark资源整理

最近在使用spark的过程中,发现自己对spark的包了解的不够,网上查也是这一点那一点的,所以自己整理的一张脑图,然后做了些实验,记录下来,上传到CSDN上需要的自取

2018-08-09

R语言与社交网络图——网络关系

R语言与社交网络图——网络关系

2015-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除