- 博客(26)
- 收藏
- 关注
原创 hive
hive用途:将HQL转换为mapreduce程序(自动),会写hql甚至是sql就行mapreduceMap的本质实际上是拆解,比如说有辆红色的小汽车,有一群工人,把它拆成零件了,这就是MapReduce就是组合,我们有很多汽车零件,还有很多其他各种装置零件,把他们一阵拼装,变成变形金刚,这就是Reduce如何统计1TB或1PB文件里的单词数呢? 我们输入很多文档,文档的...
2019-01-20 03:49:37 318
原创 .sh文件
什么是SH 文件?被称为脚本Bash的应用程序和使用开发人员文件。 SH文件被称为是创建并保存在Bash的语言,因为它包含的说明都写在该语言。 SH文件可以,如果文本命令shell的命令行界面中键入执行。 SH文件大多是用于程序开发人员,这些文件都是Bash的应用程序非常重要,因为该应用程序主要使用脚本以及命令将被执行,使这个应用程序的工作。而且,由于SH文件是使用这个应用程序编程脚本和它们包...
2018-12-28 23:03:42 6426
原创 推荐系统算法:FM
lr没有特征组合,参数只与自身有关 <“化妆品”类商品,“女”性>,<“球类运动配件”的商品,“男”性>,<“电影票”的商品,“电影”>在多项式模型中,特征 和 的组合采用 表示,即和都非零时,组合特征 才有意义 这里和是等价的、复杂度:n^2---》knhttps://zhuanlan.zhihu.com...
2018-12-02 20:46:52 977
原创 决策树 随机森林
分类和回归都能做如何选择根节点:随着树深度增加,熵entropy降低的越快越好==>>高度最矮的决策树(高度太高时,过拟合) 自身的熵 entropy :(什么都没做时) 选取outlook为根节点时: https://blog.csdn.net/Dby_freed...
2018-12-01 18:02:56 191
原创 二分查找,排序,树,链表
二分查找:(顺序数组class Solution(object): def search(self, nums, target): left=0 right=len(nums)-1 while left<=right: mid=left+(right-left)/2 if nums[m...
2018-12-01 14:47:49 322
原创 bp MLP 初始权值
神经元内部包括两个部分,第一个部分是对输入的加权求和,第二个部分是对求和的结果进行“激活”https://blog.csdn.net/App_12062011/article/details/53420510 这里的o 激活函数:sigmoid ReLU see how sensitive this cost func(代价函数) ...
2018-11-30 13:00:23 1062 1
原创 kernel method
利用函数把原空间的点送到高维空间然后做两个点的内积phi不重要,重要的是kernel func why distance&angle高维空间的距离:<>是内积|| ||是distance 高维空间的角度:conclusion:只要知道kernel,就可以知道distance,angle,内积 kern...
2018-11-28 10:45:25 269
原创 用户推荐算法 pearson(皮尔逊)相似度
距离度量公式有:欧几里得距离,明可夫斯基距离,曼哈顿距离,切比雪夫距离,马氏距离等;相似度的度量公式有:余弦相似度,皮尔森相关系数,Jaccard相似系数。 补充:欧几里得距离度量会受特征不同单位刻度的影响,所以一般需要先进行标准化处理。pearson当两个变量的方差都不为零时,相关系数才有意义,相关系数的取值范围为[-1,1]当相关系数为1时,成为完全正相关;当相关系数为-1...
2018-11-14 22:26:50 6589
原创 SVM算法 K-means的python实现
argargument of the maximum/minimumarg max f(x): 当f(x)取最大值时,x的取值arg min f(x):当f(x)取最小值时,x的取值 s.t.是subject to (such that)的缩写,受约束的意思。按中文习惯可以翻译成:使得...满足...(约束条件) 在求解最优化问题中,拉格朗日乘子法(La...
2018-11-13 22:17:41 643
原创 K-近邻 python实现
KNN 工作原理(k-NearestNeighbor---主要是用来进行分类)假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。计算新数据与样本数据集中每条数据的距离。1.对求得的所有距离进行排序(从小到大,越小表示越相似)。2.取前 k (k 一般小于等于 20 )个样本数据...
2018-11-13 01:54:52 188
原创 下采样方法
.loc[],中括号里面是先行后列,以逗号分割,行和列分别是行标签和列标签(label).iloc[]与loc一样,中括号里面也是先行后列,行列标签用逗号分割,与loc不同的之处是,.iloc 是根据行数与列数来索引的.ix上面两种用法都可以 X=data.loc[:,data.columns != 'Class'] #loc 通过行标签索引数据,y=data.loc[:,...
2018-11-10 19:11:23 2166
原创 sklearn备忘
from sklearn.preprocessing import StancdardScalersklearn的preprocessing库:用来对数据预处理,包括无量纲化,特征二值化,定性数据量化等主要包括14大类,为训练集数据的预处理提供接口,每个类都提供了fit(填充数据,获取数据上的特征信息并保存),transform(将fit保存的信息应用到其它数据集上,对其它数据集进行转换)...
2018-11-08 23:37:10 140
原创 梯度下降方法实现逻辑回归性能
Logistic Regression#三大件,%将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline #由于 %matplotlib inline 的存在,当输入plt.plot(...
2018-11-04 21:54:05 543
原创 sklearn笔记
KNN:K-nearest neighbor K-近邻算法 from pandas import Series, DataFrame:pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具,pandas是基于Numpy构建的Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即...
2018-10-30 00:14:43 295
原创 os模块
os.sep 可以取代操作系统特定的路径分割符os.linesep 字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使…os.sep 可以取代操作系统特定的路径分割符python是跨平台的。在Windows上,文件的路径分隔符是'\',在Linux上是'/'。为了让代码在不同的平台上都能运行,那么路径应该写'\'还是'/'呢?使用os.sep的话,就不...
2018-10-29 21:21:12 104
原创 线性回归 矩阵求导
一种方便区别是概率还是似然的方法是,根据定义,"谁谁谁的概率"中谁谁谁只能是概率空间中的事件,换句话说,我们只能说,事件(发生)的概率是多少多少(因为事件具有概率结构从而刻画随机性,所以才能谈概率);而"谁谁谁的似然"中的谁谁谁只能是参数,比如说,参数等于 时的似然是多少 细节:1. 矩阵Y对标量x求导:相当于每个元素求导数后转置一下,注...
2018-10-27 13:26:30 2136
原创 高斯分布 协方差
高斯分布(Gaussian Distribution)的概率密度函数(probability density function):对应于numpy中:numpy.random.normal(loc=0.0, scale=1.0, size=None)参数的意义为:loc:float 此概率分布的均值(对应着整个分布的中心centre)scale:float 此概率...
2018-10-22 23:40:29 11797
转载 np.arange()numpy.random.seed()
arange()函数用于创建等差数组,使用频率很高。arange函数和range函数很像,两个的区别是arange函数返回的是一个数据,而range函数返回的是list。另外,在使用arange前,需要先引入numpy,而range不用。其他,两者都差不多我们对比着range进行示例展示:(1)输入一个参数,range返回一个list,而arange返回一个array,起始位都是从0开始:...
2018-10-21 01:11:06 565
原创 Tensorflow 学习笔记 -----基础使用
tf.Variable:TensorFlow中的变量特指深度学习机制中,控制输入到输出映射的可以变化的数据,这些变化数据随着训练迭代的进行,不断地改变数值,不断优化,使输出的结果越来越接近于正确的结果。Variable() 构造器需要一个初始值,可以是任意类型和shape 的Tensor初始值定义了变量的type和shape。构造完成之后,变量的type和shape 是固定的。可以使用...
2018-10-17 16:35:43 132
转载 线程 Thread类
进程与线程 进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,即进程空间或(虚空间)。进程不依赖于线程而独立存在,一个进程中可以启动多个线程。比如在Windows系统中,一个运行的exe就是一个进程。 线程是指进程中的一个执行流程,一个进程中可以运行多个线程。比如java.exe进程中可以运行很多线程。线程总是属于某个进程,线程没有自己的虚拟...
2018-10-08 00:09:17 287
转载 java 接口 implements extends
implements是一个类,实现一个接口用的关键字,它是用来实现接口中定义的抽象方法。实现一个接口,必须实现接口中的所有方法.注意: (1)接口可以被多重实现(implements),抽象类只能被单一继承(extends) (2)接口只有定义,抽象类可以有定义和实现 (3)接口的字段定义默认为:public static final, 抽象类字段默认是”friendly”(本包可见) ...
2018-10-06 17:42:02 763
原创 javax.swing使用总结
java.awt包提供了基本的java程序的GUI设计工具。主要包括下述三个概念:组件--Component 容器--Container 布局管理器--LayoutManager组件组件(Conponent)是图形用户界面最基本的部分,也称为构件,是可以以图形化的方式显示在屏幕上,并能与用户进行交互的对象,例如一个按钮,一个标签等。组件不能独立地显示出来,必须将其放在一定的容器中...
2018-10-06 15:00:45 12541
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人