大数据
rosefunR
每次都多付出一点. 欢迎关注公众号《机器学习与算法之道》
展开
-
解决样本稀疏/稀缺问题的方法
1、方法1 首先,数据量不够,你就把1个当8、9、10······个用,裁剪裁剪,变换变换,翻转翻转。 其次,学习特征不够,人工先验来凑。2、方法2 人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批”新”的数据. Regularization. 数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大. 通过在Loss Function原创 2017-12-14 11:33:01 · 40419 阅读 · 0 评论 -
Spark安装及介绍
1.Spark介绍并行处理大数据;1.1 MapReduce 算法矩阵向量相乘;指数迭代;随机梯度方法;随机SVD;QR;缺点:1.数据共享的局限性;不同步骤的产物在分布式文件系统;复制和磁盘内存存储导致慢;1.2Spark 计算引擎分布式收集数据结构 RDD(Resilient distributed datasets);2.Spark示例参考:1.Sta...原创 2020-01-18 15:31:45 · 449 阅读 · 0 评论 -
pandas 大文件处理方式
1. 保存 .h5 格式文件首先,安装 pytables,pip install tables>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]},... index=['a', 'b', 'c'])>>> df.to_hdf('data.h5', key='d...原创 2019-05-27 09:08:05 · 1601 阅读 · 0 评论 -
python 自动机器学习库TPOT
1、引言TPOT库(Tree-based Pipeline Optimisation Technique,树形传递优化技术),该库基于scikit-learn库建立。2、参考:TPOT GITHUB原创 2018-01-10 19:20:07 · 2900 阅读 · 0 评论 -
xgboost、random forest等模型调参小结
1、关于调参调参是模型适应不同数据集的一个优化过程,如果只是建立了模型,而不对参数进行调整,是很不合理的。2、xgboost调参3、网络调参from sklearn.metrics import fbeta_score, make_scorer,r2_scorefrom sklearn.model_selection import GridSearchCVcv = K原创 2018-01-18 12:31:19 · 1347 阅读 · 0 评论 -
python入门系列(10): python对CSV、Excel、txt、dat、mat文件的处理
1、读取1.1基于python csv库#3.读取csv至字典x,yimport csv# 读取csv至字典csvFile = open(r'G:\训练小样本.csv', "r")reader = csv.reader(csvFile)#print(reader)# 建立空字典result = {}i=0for item in reader: if reader.line_num原创 2017-12-18 09:29:52 · 104298 阅读 · 0 评论 -
RBM受限玻尔兹曼机理解及实现
引言1、RBM简介2、贪婪算法 首先字典学习它是个非凸优化问题,多层字典学习将会变得更加复杂;另外多层字典学习的所要求解的参数大大增加,在有限的训练样本下,容易引起过拟合问题。因此文献提出类似于SAE、DBN一样,采用逐层训练学习的思想,这样可以保证网络的每一层都是收敛的。算法其实非常简单,以双层分解为例进行逐层分解,具体示意图如下:参考:RBM 知乎;深度学习贪婪算法 CSDN;A d原创 2017-12-26 16:49:20 · 10351 阅读 · 0 评论 -
Windows安装python包numpy、SciPy、scikit-learn
基于Tsinghua anaconda镜像的下载1、镜像配置在cmd窗口,运行conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkg原创 2017-12-18 09:56:27 · 779 阅读 · 0 评论 -
python入门系列(14): python对字符串型数据处理
1.sklearn1.1示例1from sklearn import preprocessingle = preprocessing.LabelEncoder()le.fit(df['Col1'])df['Col3'] = le.transform(df['Col3'])1.2 示例2使用独热编码。###2/独热编码from sklearn import preprocessingfrom原创 2017-12-25 08:55:45 · 1041 阅读 · 0 评论 -
基于python包scikit-learn的数据预处理方法
1、标准化 数据集的* 标准化 对于在scikit中的大部分机器学习算法来说都是一种 常规要求 * 。 如果单个特征没有或多或少地接近于标准正态分布:* 零均值和单位方差 *的高斯分布,那么它可能并不能在项目中表现出很好的性能。 例如, 许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差(比如径向基函数、支持向量机以及L1L2正则化项等)。原创 2017-12-18 10:57:05 · 481 阅读 · 0 评论 -
Hash Trick
1.介绍Hashing trick,有时候也叫做feature hashing,在自然语音中已经用作降维的手段。在一般的机器学习任务中,它也可以对categorical feature进行降维。举个例子,比如你是淘宝的算法工程师,你要做一个退货的预测模型,假设有一个feature是location_id,表示商品的产地。这个是categoricalfeature,所以你通常需要做one-h...原创 2019-06-03 14:27:23 · 1160 阅读 · 0 评论