2018年06月_有石为玉

原创优达学城实战总结

1、Keras：MLP实现MNIST手写数字识别https://blog.csdn.net/weixin_41770169/article/details/802185102、Keras：电影影评分析MLP实现：https://blog.csdn.net/weixin_41770169/article/details/80096197优化：https://blog.csdn....

2018-06-29 17:49:09 2657 6

原创 Graphlab Create简介

GraphLab Create 是一款机器学习的函数库，其中的SFrame也是十分强大的数据管理工具。它允许直接从硬盘中读取数据，免于将数据全部加载到内存中。Graphlab Create功能简介：参考文档：https://blog.csdn.net/u010657489/article/category/6168403...

2018-06-29 16:27:47 777

转载 Pandas

Pandas 是基于 NumPy 的一个非常好用的库，正如名字一样，人见人爱。之所以如此，就在于不论是读取、处理数据，用它都非常简单。基本的数据结构Pandas 有两种自己独有的基本数据结构。读者应该注意的是，它固然有着两种数据结构，因为它依然是 Python 的一个库，所以，Python 中有的数据类型在这里依然适用，也同样还可以使用类自己定义数据类型。只不过，Pandas 里面又定义了...

2018-06-29 16:17:46 259

转载 Numpy

参考文章：https://www.jianshu.com/p/83c8ef18a1e8NumPy是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。Numpy内部解除了Python的PIL(全局解释器锁),运算效率极好,是大量机器学习框架的基础库!Numpy简单创建数组import numpy as np# 创建简单的列...

2018-06-29 15:35:45 215

转载 Scipy

参考文章：https://www.jianshu.com/p/1a3db06e786dscipy包含致力于科学计算中常见问题的各个工具箱。它的不同子模块相应于不同的应用。像插值，积分，优化，图像处理，统计，特殊函数等等。scipy可以与其它标准科学计算程序库进行比较，比如GSL(GNU C或C++科学计算库)，或者Matlab工具箱。scipy是Python中科学计算程序的核心包; 它用于...

2018-06-29 15:32:53 902

原创 Scikit-learn中文文档学习

简单高效的数据挖掘和数据分析工具可供大家使用，可在各种环境中重复使用建立在 NumPy，SciPy 和 matplotlib 上开放源码，可商业使用 - BSD license0.18版本中文文档说明：http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030185...

2018-06-29 15:27:33 882

原创 Keras：基于Python的深度学习库

参考：http://keras-cn.readthedocs.io/en/latest/一、Keras简介Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生，能够把你的idea迅速转换为结果。Keras适用的Python版本是：Python 2.7-3.6Keras的核心...

2018-06-29 15:14:56 6791

原创 Ceva XC架构介绍

用于LTE系统物理层的主要是Ceva XC系列芯片。1、Ceva XC主要有VCU、GCU、PCU、DAU等运算单元。2、LTE架构物理层、mac层、应用层Ceva Dsp应用在物理层上下行。（1）首先，根据上个版本数据，以及仿真数据，得到一个流程走下来需要消耗的时间T1。（2）根据芯片性能，新需求下单位时间需要处理的用户，得到1个流程最多能给的时间T2。...

2018-06-28 16:55:01 3896 2

原创 Ceva Dsp公司及产品介绍

1、Ceva公司ceva：美国思华科技，2002年成立，一家仅仅300多人的以色列公司，却做出这么多伟大的产品，2017有12亿台的设备搭载了ceva的dsp。大部分中国厂商就是买IP，然后生产芯片，打价格战。ARM：专门提供微处理器IP核授权。Ceva：提供DSP IP授权。这两家都是自己不生产芯片，只提供授权，现在ceva应该已经是dsp领域的arm了。官网：https://www...

2018-06-28 15:13:40 33236

原创 python简介

python介绍：支持高级的数据结构类型，比如灵活的数组和字典。 1、Python流程控制if, for, range(), break/continue/else, pass, 函数定义(def/lambda) 2、数据结构（1）列表list [ ]类似c中的数组 list.append加元素, list.extend加列表, list.insert插入元素, lis...

2018-06-27 14:33:44 222

原创 python中列表list、字典dict找最大值、最小值

1、list中找最值c = [-10,-5,0,5,3,10,15,-20,25]print c.index(min(c)) # 返回最小值的索引print c.index(max(c)) # 返回最大值的索引 2、字典中找最值dogdistance = {'dog-dog': 33, 'dog-cat': 36, 'dog-car': 41, 'dog-bird':...

2018-06-26 16:19:45 100669 5

原创【机器学习课程-华盛顿大学】：1 案例研究 1.6 深度学习（2）深度学习特征作为输入训练逻辑回归分类

1、导入库和数据import graphlab# Limit number of worker processes. This preserves system memory, which prevents hosted notebooks from crashing.graphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_W...

2018-06-26 13:39:43 335

原创【机器学习课程-华盛顿大学】：1 案例研究 1.5 推荐系统（2）音乐推荐系统

1、导入库和数据import graphlabgraphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)song_data = graphlab.SFrame('song_data.gl/')song_data.head()graphlab.canvas.set_target('browser')s...

2018-06-26 12:15:53 359

原创 graphlab中的groupby

1、官方参考文档：https://turi.com/products/create/docs/generated/graphlab.SFrame.groupby.html?highlight=groupby#graphlab.SFrame.groupbySFrame.groupby(key_columns,operations,*args)Perform a group on...

2018-06-26 12:10:54 470

原创【机器学习课程-华盛顿大学】：1 案例研究 1.4 聚类（2）wikipedia文章聚类

1、导入库和数据import graphlabgraphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)people = graphlab.SFrame('people_wiki.gl/')people.head() 2、word_countobama文章obama = pe...

2018-06-26 11:39:34 253

原创 graph中的sframe.stack使用

1、官网文档参考https://turi.com/products/create/docs/generated/graphlab.SFrame.stack.html?highlight=stack#graphlab.SFrame.stackSFrame.stack(column_name,new_column_name=None,drop_na=False,new_column...

2018-06-26 11:25:38 299

原创 graphlab中.apply使用

1、官网解析参考地址：https://turi.com/products/create/docs/generated/graphlab.SFrame.apply.html?highlight=apply#graphlab.SFrame.applySFrame.apply(fn,dtype=None,seed=None)Transform each row to anSA...

2018-06-25 22:30:12 436

原创 graphlab中.apply只处理前100个数

运行下列代码后，发现products新家的great列，只处理前100个数。def great_count(word_count_vector): if 'great' in word_count_vector: return word_count_vector['great'] else: return 0products['great']...

2018-06-25 22:29:46 239

原创【机器学习课程-华盛顿大学】：1 案例研究 1.3 分类（2）亚马逊产品评价分类

1、导入库和数据import graphlabgraphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)products = graphlab.SFrame('amazon_baby.gl/')products.head() 2、建立word_count矢量products['wor...

2018-06-25 22:21:18 531

原创 graphlab canvas设置后，.show没有任何显示

graphlab create中为了显示图表，设置canvas后，show没有任何反馈：graphlab.canvas.set_target('ipynb')products['name'].show() 修改成browser后，显示成功：graphlab.canvas.set_target('browser')products['name'].show()...

2018-06-25 14:48:25 811 1

原创【机器学习课程-华盛顿大学】：1 案例研究 1.2 回归（2）房价预测实战

房价预测实战1、加载库和数据import graphlabgraphlab.set_runtime_config('GRAPHLAB_DEFAULT_NUM_PYLAMBDA_WORKERS', 4)sales = graphlab.SFrame('home_data.gl/') 2、数据集、测试集分割train_data,test_data ...

2018-06-25 12:34:44 457

原创 SFrame如何根据列A的限制条件来求列B的性质

train_data: SFrame train_data[train_data['zipcode']=='98039'] train_data[train_data['zipcode']=='98039']['price'] 求zipcode为98039时，平均pricetrain_data[train_data['zipcode']=='...

2018-06-23 15:13:46 187

转载（转）十大数据挖掘之CART

参考文章：https://blog.csdn.net/baimafujinji/article/details/53269040 在2006年12月召开的 IEEE 数据挖掘国际会议上（ICDM， International Conference on Data Mining），与会的各位专家选出了当时的十大数据挖掘算法（ top 10 data mining algorithms ），可...

2018-06-22 12:15:01 365

原创（转）几种Adaboost的比较

参考文章：https://www.cnblogs.com/jcchen1987/p/4581651.html 关于boost算法　　boost算法是基于PAC学习理论（probably approximately correct）而建立的一套集成学习算法(ensemble learning)。其根本思想在于通过多个简单的弱分类器，构建出准确率很高的强分类器，PAC学习理论证实了这一方法...

2018-06-22 12:12:40 1586

转载（转）用CART作为弱分类器的Adaboost算法

参考地址：https://www.cnblogs.com/qwj-sysu/p/5989282.html 在之前的决策树到集成学习里我们说了决策树和集成学习的基本概念（用了adaboost昨晚集成学习的例子），其后我们分别学习了决策树分类原理和adaboost原理和实现，上两篇我们学习了cart（决策分类树），决策分类树也是决策树的一种，也是很强大的分类器，但是cart的深度太深，我们...

2018-06-22 11:59:10 1571 1

原创 NN中常用的距离计算公式：欧式距离、曼哈顿距离、马氏距离、余弦、汉明距离

1、欧氏距离Euclidean Distance：2、曼哈顿距离Manhattan：3、Mahalanobis马氏距离马氏距离的浅显解释，见我的博文：https://blog.csdn.net/weixin_41770169/article/details/80759195马氏距离和欧式距离的对比，见我的博文：https://blog.csdn.net/we...

2018-06-21 13:55:05 43191

转载欧氏距离与马氏距离

参考文章：Preface 之前在写《Multi-view CNNs for 3D Objects Recognition》的阅读笔记的时候，文章中的一个创新点便是将MVCNN网络提取到的3D Objects的形状特征描述符，投影到马氏距离（Mahalanobis Distance）上，“这样的话，相同类别3D形状之间的ℓ2距离在投影后的空间中就更小，而不同的类别之间的ℓ2在投影后会更大”...

2018-06-21 13:44:45 3547

转载 Mahalanobis距离（马氏距离）的“哲学”解释

参考文章：https://blog.csdn.net/jmy5945hh/article/details/20536929基础知识：假设空间中两点x，y，定义：欧几里得距离，Mahalanobis距离，不难发现，如果去掉马氏距离中的协方差矩阵，就退化为欧氏距离。那么我们就需要探究这个多出来的因子究竟有什么含义。第一个例子从下往上的一段50米长的坡道路，下面定...

2018-06-21 13:41:48 3609

原创【机器学习课程-华盛顿大学】：4 聚类和检索 4.5 LDA测试

4、测试只有第3题错误：选择2

2018-06-20 15:39:31 350

转载 LDA求解：Gibbs采样算法

本文是LDA主题模型的第二篇，读这一篇之前建议先读文本主题模型之LDA(一) LDA基础，同时由于使用了基于MCMC的Gibbs采样算法，如果你对MCMC和Gibbs采样不熟悉，建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。 1. Gibbs采样算法求解LDA的思路　　　　首先，回顾LDA的模型图如下：　　　　在Gibbs采样算法求解LDA的方法中，我们的α,ηα,...

2018-06-20 11:44:49 1671 1

转载 LDA基础

在前面我们讲到了基于矩阵分解的LSI和NMF主题模型，这里我们开始讨论被广泛使用的主题模型：隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。注意机器学习还有一个LDA，即线性判别分析，主要是用于降维和分类的，如果大家需要了解这个LDA的信息，参看之前写的线性判别分析LDA原理总结。文本关注于隐含狄利克雷分布对应的LDA。1. LDA贝叶斯模型　　...

2018-06-20 11:43:54 451

原创【机器学习课程-华盛顿大学】：4 聚类和检索 4.4 MoG混合高斯模型编程测试（2）

1、初始化优化使用k-means得到均值u，用u来初始化EM算法的均值，权重和方差。 2、初始化优化代码实现k-means初始化meanfrom sklearn.cluster import KMeansnp.random.seed(5)num_clusters = 25# Use scikit-learn's k-means to simplify workflo...

2018-06-19 23:53:29 300

原创 numpy.random.uniform均匀分布

numpy.random.uniform介绍：1. 函数原型： numpy.random.uniform(low,high,size)功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high.参数介绍: low: 采样下界，float类型，默认值为0； high: 采样上界，float类型，默认值为1； size: 输出样...

2018-06-19 23:28:03 53499

原创 python--随机函数（random,uniform,randint,randrange,shuffle,sample）

random()random()方法：返回随机生成的一个实数，它在[0,1)范围内运用random()方法的语法：import random #random()方法不能直接访问，需要导入random模块，然后通过random静态对象调用该方法random.randomrandom.random()方法用于生成一个0到1的随机浮点数：0<=n<1.0>...

2018-06-19 23:22:52 2436

原创 numpy生成正态分布数组的问题

np.random.randnnp.random.normal>>> import numpy as np>>> np.random.normal(size=(3,4))array([[-0.80403424, -2.26403495, 1.39152869, -0.90893755], [-0.2589969 , -1.31...

2018-06-19 22:31:26 16417

原创 numpy.argsort的用法介绍

参考文章：https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.argsort.htmlnumpy.argsort(a,axis=-1,kind='quicksort',order=None)返回数组排序后对应的下标。kind是排序算法，axis是排序的轴。Parameters: a...

2018-06-19 22:26:20 1470

原创【机器学习课程-华盛顿大学】：4 聚类和检索 4.4 MoG混合高斯模型编程测试

1 k-means和MoG都容易出现局部最优解 2、公式： 3、自己实现EM算法（1）主函数：def EM(data, init_means, init_covariances, init_weights, maxiter=1000, thresh=1e-4): # Make copies of initial parameter...

2018-06-19 21:33:12 577

原创 scipy.stats.multivariate_normal高斯分布

参考地址：https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.multivariate_normal.htmlscipy.stats.multivariate_normalParameters: x: array_like Quantiles, with the...

2018-06-19 10:21:48 8134

原创【机器学习课程-华盛顿大学】：4 聚类和检索 4.6 聚类总结、分层聚类（分裂/成团）

一、总结1、最近邻搜索（1）1NN（2）KNNTF-IDF，距离（欧氏距离，cosine），归一化，暴力搜索复杂度（3）KD-trees缺点：不易实现；高维特征难以实现（4）LSH局部敏感哈希 2、k-means和MapReduce 3、混合高斯模型和EMk-means不能解决的： 4、LDA吉布斯采样...

2018-06-18 00:00:16 335

原创【机器学习课程-华盛顿大学】：4 聚类和检索 4.5 LDA隐Dirichlet模型

之前的软分配的问题：一个图像只可能是一种类型，但是其实有时候一个图像是多个类型，比如上述中间的，既是world news也是science。这时我们提出可以进行混合检测的LDA。 1、LDA：一个文档是从一个主题分布中找N个主题，每个主题中再找字LDA用的是词袋，也就是每个词出现的次数，跟词在文档中的顺序没有关系。 LDA（Latent Dirichlet Allo...

2018-06-17 23:47:43 269

cmake window64版本

空空如也