自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 hive

hive用途:将HQL转换为mapreduce程序(自动),会写hql甚至是sql就行mapreduceMap的本质实际上是拆解,比如说有辆红色的小汽车,有一群工人,把它拆成零件了,这就是MapReduce就是组合,我们有很多汽车零件,还有很多其他各种装置零件,把他们一阵拼装,变成变形金刚,这就是Reduce如何统计1TB或1PB文件里的单词数呢? 我们输入很多文档,文档的...

2019-01-20 03:49:37 318

原创 pip之后still no module

多版本python问题安装到了2.6,实际2.7pip2.7 install

2019-01-12 12:25:40 180

原创 .sh文件

什么是SH 文件?被称为脚本Bash的应用程序和使用开发人员文件。 SH文件被称为是创建并保存在Bash的语言,因为它包含的说明都写在该语言。 SH文件可以,如果文本命令shell的命令行界面中键入执行。 SH文件大多是用于程序开发人员,这些文件都是Bash的应用程序非常重要,因为该应用程序主要使用脚本以及命令将被执行,使这个应用程序的工作。而且,由于SH文件是使用这个应用程序编程脚本和它们包...

2018-12-28 23:03:42 6426

原创 推荐系统算法:FM

lr没有特征组合,参数只与自身有关 <“化妆品”类商品,“女”性>,<“球类运动配件”的商品,“男”性>,<“电影票”的商品,“电影”>在多项式模型中,特征  和  的组合采用  表示,即和都非零时,组合特征  才有意义 这里和是等价的、复杂度:n^2---》knhttps://zhuanlan.zhihu.com...

2018-12-02 20:46:52 977

原创 决策树 随机森林

分类和回归都能做如何选择根节点:随着树深度增加,熵entropy降低的越快越好==>>高度最矮的决策树(高度太高时,过拟合) 自身的熵 entropy   :(什么都没做时) 选取outlook为根节点时:          https://blog.csdn.net/Dby_freed...

2018-12-01 18:02:56 191

原创 二分查找,排序,树,链表

二分查找:(顺序数组class Solution(object):    def search(self, nums, target):        left=0        right=len(nums)-1        while left<=right:            mid=left+(right-left)/2            if nums[m...

2018-12-01 14:47:49 322

原创 bp MLP 初始权值

神经元内部包括两个部分,第一个部分是对输入的加权求和,第二个部分是对求和的结果进行“激活”https://blog.csdn.net/App_12062011/article/details/53420510  这里的o  激活函数:sigmoid  ReLU   see how sensitive this cost func(代价函数) ...

2018-11-30 13:00:23 1062 1

原创 kernel method

利用函数把原空间的点送到高维空间然后做两个点的内积phi不重要,重要的是kernel func  why distance&angle高维空间的距离:<>是内积||  ||是distance 高维空间的角度:conclusion:只要知道kernel,就可以知道distance,angle,内积  kern...

2018-11-28 10:45:25 269

原创 用户推荐算法 pearson(皮尔逊)相似度

距离度量公式有:欧几里得距离,明可夫斯基距离,曼哈顿距离,切比雪夫距离,马氏距离等;相似度的度量公式有:余弦相似度,皮尔森相关系数,Jaccard相似系数。 补充:欧几里得距离度量会受特征不同单位刻度的影响,所以一般需要先进行标准化处理。pearson当两个变量的方差都不为零时,相关系数才有意义,相关系数的取值范围为[-1,1]当相关系数为1时,成为完全正相关;当相关系数为-1...

2018-11-14 22:26:50 6589

原创 SVM算法 K-means的python实现

argargument of the maximum/minimumarg max f(x): 当f(x)取最大值时,x的取值arg min f(x):当f(x)取最小值时,x的取值  s.t.是subject to (such that)的缩写,受约束的意思。按中文习惯可以翻译成:使得...满足...(约束条件)  在求解最优化问题中,拉格朗日乘子法(La...

2018-11-13 22:17:41 643

原创 K-近邻 python实现

KNN 工作原理(k-NearestNeighbor---主要是用来进行分类)假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。计算新数据与样本数据集中每条数据的距离。1.对求得的所有距离进行排序(从小到大,越小表示越相似)。2.取前 k (k 一般小于等于 20 )个样本数据...

2018-11-13 01:54:52 188

原创 模型评估(线性回归 recall

2018-11-12 21:46:01 409

原创 下采样方法

.loc[],中括号里面是先行后列,以逗号分割,行和列分别是行标签和列标签(label).iloc[]与loc一样,中括号里面也是先行后列,行列标签用逗号分割,与loc不同的之处是,.iloc 是根据行数与列数来索引的.ix上面两种用法都可以  X=data.loc[:,data.columns != 'Class'] #loc 通过行标签索引数据,y=data.loc[:,...

2018-11-10 19:11:23 2166

原创 sklearn备忘

from sklearn.preprocessing import StancdardScalersklearn的preprocessing库:用来对数据预处理,包括无量纲化,特征二值化,定性数据量化等主要包括14大类,为训练集数据的预处理提供接口,每个类都提供了fit(填充数据,获取数据上的特征信息并保存),transform(将fit保存的信息应用到其它数据集上,对其它数据集进行转换)...

2018-11-08 23:37:10 140

原创 线性回归求解

  

2018-11-06 22:36:48 345

原创 梯度下降方法实现逻辑回归性能

Logistic Regression#三大件,%将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline    #由于 %matplotlib inline 的存在,当输入plt.plot(...

2018-11-04 21:54:05 543

原创 linux下文件锁住

sudo chmod -R 777 /download-r 是文件夹.删除单独文件 rm-r 针对文件夹

2018-10-30 18:34:48 1957

原创 sklearn笔记

KNN:K-nearest neighbor K-近邻算法   from pandas import Series, DataFrame:pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具,pandas是基于Numpy构建的Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即...

2018-10-30 00:14:43 295

原创 os模块

os.sep 可以取代操作系统特定的路径分割符os.linesep 字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使…os.sep 可以取代操作系统特定的路径分割符python是跨平台的。在Windows上,文件的路径分隔符是'\',在Linux上是'/'。为了让代码在不同的平台上都能运行,那么路径应该写'\'还是'/'呢?使用os.sep的话,就不...

2018-10-29 21:21:12 104

原创 线性回归 矩阵求导

一种方便区别是概率还是似然的方法是,根据定义,"谁谁谁的概率"中谁谁谁只能是概率空间中的事件,换句话说,我们只能说,事件(发生)的概率是多少多少(因为事件具有概率结构从而刻画随机性,所以才能谈概率);而"谁谁谁的似然"中的谁谁谁只能是参数,比如说,参数等于 时的似然是多少   细节:1. 矩阵Y对标量x求导:相当于每个元素求导数后转置一下,注...

2018-10-27 13:26:30 2136

原创 高斯分布 协方差

高斯分布(Gaussian Distribution)的概率密度函数(probability density function):对应于numpy中:numpy.random.normal(loc=0.0, scale=1.0, size=None)参数的意义为:loc:float    此概率分布的均值(对应着整个分布的中心centre)scale:float    此概率...

2018-10-22 23:40:29 11797

转载 np.arange()numpy.random.seed()

arange()函数用于创建等差数组,使用频率很高。arange函数和range函数很像,两个的区别是arange函数返回的是一个数据,而range函数返回的是list。另外,在使用arange前,需要先引入numpy,而range不用。其他,两者都差不多我们对比着range进行示例展示:(1)输入一个参数,range返回一个list,而arange返回一个array,起始位都是从0开始:...

2018-10-21 01:11:06 565

原创 Tensorflow 学习笔记 -----基础使用

tf.Variable:TensorFlow中的变量特指深度学习机制中,控制输入到输出映射的可以变化的数据,这些变化数据随着训练迭代的进行,不断地改变数值,不断优化,使输出的结果越来越接近于正确的结果。Variable() 构造器需要一个初始值,可以是任意类型和shape 的Tensor初始值定义了变量的type和shape。构造完成之后,变量的type和shape 是固定的。可以使用...

2018-10-17 16:35:43 132

转载 线程 Thread类

进程与线程        进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,即进程空间或(虚空间)。进程不依赖于线程而独立存在,一个进程中可以启动多个线程。比如在Windows系统中,一个运行的exe就是一个进程。        线程是指进程中的一个执行流程,一个进程中可以运行多个线程。比如java.exe进程中可以运行很多线程。线程总是属于某个进程,线程没有自己的虚拟...

2018-10-08 00:09:17 287

转载 java 接口 implements extends

implements是一个类,实现一个接口用的关键字,它是用来实现接口中定义的抽象方法。实现一个接口,必须实现接口中的所有方法.注意: (1)接口可以被多重实现(implements),抽象类只能被单一继承(extends) (2)接口只有定义,抽象类可以有定义和实现 (3)接口的字段定义默认为:public static final, 抽象类字段默认是”friendly”(本包可见) ...

2018-10-06 17:42:02 763

原创 javax.swing使用总结

java.awt包提供了基本的java程序的GUI设计工具。主要包括下述三个概念:组件--Component 容器--Container 布局管理器--LayoutManager组件组件(Conponent)是图形用户界面最基本的部分,也称为构件,是可以以图形化的方式显示在屏幕上,并能与用户进行交互的对象,例如一个按钮,一个标签等。组件不能独立地显示出来,必须将其放在一定的容器中...

2018-10-06 15:00:45 12541

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除