- 博客(11)
- 资源 (20)
- 收藏
- 关注
转载 机器学习之特征选择方法整理
三个问题1、为什么特征选择?在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择是什么?将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、如何进行特征选取?获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点。三种方法1、Filte...
2018-11-21 09:43:03 2015
原创 小波、小波包相关知识整理
1.连续小波变换、离散小波变换、平稳小波变换、尺度1、连续小波的概念。就是把一个可以称作小波的函数(从负无穷到正无穷积分为零)在某个尺度下与待处理信号卷积。改变小波函数的尺度,也就改变了滤波器的带通范围,相应每一尺度下的小波系数也就反映了对应通带的信息。本质上,连续小波也就是一组可控制通带范围的多尺度滤波器。2、连续小波是尺度可连续取值的小波,里面的a一般取整数,而不像二进小波a取2的整数幂。...
2018-11-19 20:28:49 2880
原创 读书笔记 | 《推荐系统》
读书笔记 | 《推荐系统》 引言协同方法背景下常见问题如下1.如何发现与我们要推荐的用户有着相似偏好的用户?2.如何衡量相似度?3.如何处理还没有购买经历的用户?4.如果只有很少的评分怎么办?5.除了利用相似用户之外,还有那些技术可以用来预测用户是否其物品?基于内用的推荐常见问题1.系统如何自动获取并持续改进用户记录?2.如何决定那个物品匹配或者至少能接近、符合用户的兴趣?3....
2018-11-18 21:54:52 574
原创 机器学习常用评价指标:混淆矩阵、精度precision、召回率recall、准确率accuracy、F1值
混淆矩阵True Positive(真正,TP):将正类预测为正类数True Negative(真负,TN):将负类预测为负类数False Positive(假正,FP):将负类预测为正类数误报 (Type I error)False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)精度表示被分为正例的示例中实际为正例的比例召回率度量有多...
2018-11-05 13:09:49 4209
原创 Python for Data Analysis 4
Python for Data Analysis第4章 Numpy基础:数组和矢量计算import numpy as np4.1 NumPy的ndarray:一种多维数组对象# generate some random datadata = np.random.randn(2, 3)data array([[-0.88356437, -0.72686335, 0.6322185...
2018-11-03 08:17:56 428
原创 Python for Data Analysis 8
Python for Data Analysis第8章 数据规整:聚合,合并,重塑8.1 层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子:创建一个Series,并用一个由列表或数组组成的列表作为索引:import nump...
2018-11-03 08:15:13 308
原创 Python for Data Analysis 7
Python for Data Analysis数据清洗和准备在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是...
2018-11-03 08:14:50 449
原创 Python for Data Analysis 6
Python for Data Analysis访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1 读写文本格式的数据https://ask.hellobi.com/blog/python...
2018-11-03 08:14:25 259
原创 Python for Data Analysis 5
Python for Data Analysis第5章 pandas入门pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数...
2018-11-03 08:14:06 412
原创 Python for Data Analysis 3
Python for Data Analysis第3章 python数据结构、函数和文件3.1 数据结构和序列元组元组是一个固定长度,不可改变的序列对象tup = 4,5,6tup(4, 5, 6)tup1 = (4,5,6),(7,8)tup1((4, 5, 6), (7, 8))# 可将任一序列或迭代器转换成元组tuple([2,3,4])(2, 3, 4)...
2018-11-03 08:11:36 765
原创 Python for Data Analysis 2
Python for Data Analysis第2章 python语法基础list.append(obj) 在列表的末尾添加新的对象,可以为字典,列表等list.count(obj) 统计某个元素在列表中出现的次数list.extend(*obj) 在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)list.index(obj) ...
2018-11-02 22:04:36 597
tensorflow-DeepFM-master.zip
2019-03-22
LDA主题模型.zip
2019-01-05
推荐相关.zip
2018-10-28
精益数据分析1.pdf
2018-10-14
集体智慧编程.pdf
2018-10-14
推荐系统实践.pdf
2018-10-10
受限玻尔兹曼机笔记.pdf
2018-04-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人