mambasmile-CSDN博客

原创 maprecude框架学习

hadoop：分布式文件系统MapReduce：分布式计算框架Yarn：hadoop资源调度系统使用MapReduce框架编写应用时，只用专注于业务逻辑的开发wordcount业务逻辑的开发/*** Mapper阶段* 默认InputFormat 格式下，KEYIN表示一行文本的起始偏移量，类型为LongWritable；VALUEIN表示一行文* 本，类型为Text；K...

2019-06-14 14:45:19 450

原创 springboot数据源

数据源定义程序与目标数据之间交互的规范和协议，可以是数据库或者文件系统；数据源对应用程序透明，开发者只需为应用程序配置数据源，即可与数据库进行连接，当更换数据库服务器或者更换数据库种类时，只需修改配置中信息。数据源分为：不提供连接池和提供连接池管理不提供连接池的数据源：DriverManagerDataSource对每个数据库连接请求建立一次新的连接，使用完毕后进行销毁；提供连接池...

2019-05-14 17:10:09 204

原创 Spring boot注解参数说明

Spring boot中使用MySQL数据库时@Table：指定关联的数据库表名@Id定义一条记录的唯一标识；并结合注解@GeneratedValue将其设置为自动生成@Entity@Table(name = "department")public class Department{ @Id @GeneratedValue(strategy = Generatio...

2019-05-14 17:05:13 516

原创 FeatureTools 原理整理

感慨于FeatureTools的强大功能，由于目前FeatureTools文档较少，在此对FeatureTools的原理进行梳理。首先理解两个重要的概念：实体和实体集对于机器学习任务的建模过程（包括一些线上比赛或者工业领域的推荐系统等等），通常是将多张表拼凑成一张表，然后进行数据清洗，特征提取等等，而FeatureTools将实体作为对象，而实体就类似于表。实体集就可以理解为一组实体，以及...

2019-05-10 18:51:56 4195

原创 scala源代码走读

今天先分析位于scala.mllib.clustering中最简单的KMeans模型，即文件KMeans.scala。KMeans作为较简单的聚类算法，mllib中KMeans的实现方法也很简单。KMeans类的定义class KMeans private ( private var k: Int, // 簇的个数 priv...

2019-04-26 15:50:10 266

原创求最长公共子序列和最长公共子串

#coding=utf-8"""求最长公共子串"""def lcsubstr(str1,str2): dp = [[0 for i in xrange(str2.__len__()+1)] for i in xrange(str1.__len__()+1)] count = 0 index = 0 for i in xrange(str1.__len__()...

2018-09-16 11:58:31 140

原创求最大公约数和最小公倍数

####求最大公约数：辗转相除法def maxcommonDivisor(num1,num2): while num2!=0: tmp = num1%num2 num1 = num2 num2 = tmp return num1###求最小公倍数：两个数相乘，然后除于最大公约数def mincommonMultiple(nu...

2018-09-16 11:23:16 222

转载深度优先搜索和广度优先搜索

#!/usr/bin/python# -*- coding: utf-8 -*-class Graph(object): def __init__(self,*args,**kwargs): self.node_neighbors = {} def add_nodes(self,nodelist): for node in nodelis...

2018-09-09 16:23:15 211

原创基于信息增益的离散化方法

class Feature_Discretization(object): def __init__(self): self.min_interval = 1 # 最小间隔 self.min_epos = 0.05 # 信息增益阈值 self.final_bin = [] # 最终边界 def fit(self, x, ...

2018-07-31 17:13:26 2629 1

原创过采样smote方法

class Smote: def __init__(self,samples,N=10,k=5): self.n_samples,self.n_attrs=samples.shape self.N=N self.k=k self.samples=samples self.newindex=0 #...

2018-07-31 17:09:05 2143

原创两个文件，同时一行行读取，进行操作

class Load_Corpus_with_Iteration(object): # 使用迭代器读取语料库 def __init__(self, labelPath, scorePath,lineList): self.labelPath = labelPath self.scorePath = scorePath self.lineL...

2018-07-31 14:11:33 974

原创堆排序

"""调整节点，使得满足大顶堆"""def Max_Heapify(heap,heapSize,root): left = root*2+1 right = left+1 large = root if left<heapSize and heap[left]<heap[large]: large=left if right&...

2018-07-27 20:40:11 143

原创面试问题

五次及以上多项式方程没有根式解（所谓根式解，是指没有像二次方程那样的万能公式）使用牛顿迭代法来求解这种变态的高次方程。不断曲线的切线可以拟合曲线，寻找曲线的根点；知乎大神的牛顿法解释应用牛顿-拉弗森方法求解高次方程的解，需要满足以下要求：函数在整个定义域内最好是二阶可导的；起始点对求根计算影响重大，可以不断试错。...

2018-07-26 23:31:19 155

题目：一闪一闪亮晶晶，满天都是小星星，牛牛晚上闲来无聊，便躺在床上数星星。牛牛把星星图看成一个平面，左上角为原点(坐标为(1, 1))。现在有n颗星星，他给每颗星星都标上坐标(xi，yi)，表示这颗星星在第x行，第y列。现在，牛牛想问你m个问题，给你两个点的坐标(a1, b1)(a2，b2)，表示一个矩形的左上角的点坐标和右下角的点坐标，请问在这个矩形内有多少颗星星（边界上的点也算是矩形内）。#i...

2018-07-12 15:14:23 313

原创算法题目

leetcodepython快速排序：def quickSort(num): if num.__len__() < 2: return num left,right = [],[] base = num.pop() for val in num: if val < base: left.append(val) ...

2018-07-12 10:46:47 275

原创双指针问题

双指针可用于多种情景之下，用于查找数组中满足条件的数，#coding=utf-8###查找三个数加起来等于0def findThreeSum(nums,target=0): nums.sort() res = [] for left in xrange(nums.__len__()): if left > 0 and nums[left] == ...

2018-07-05 20:35:17 179

原创二叉树的前序遍历，中序遍历和后序遍历（python实现）

前序遍历# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution(ob...

2018-07-04 11:10:53 2681 2

原创大厂算法题集【机器学习渣硕，邻近秋招努力刷题，并收集一些算法题目！！！】

题目:平面内有n个矩形, 第i个矩形的左下角坐标为(x1[i], y1[i]), 右上角坐标为(x2[i], y2[i])。如果两个或者多个矩形有公共区域则认为它们是相互重叠的(不考虑边界和角落)。请你计算出平面内重叠矩形数量最多的地方,有多少个矩形相互重叠。输入包括五行。第一行包括一个整数n(2 <= n <= 50), 表示矩形的个数。第二行包括n个整数x1[i](-10^...

2018-07-03 12:14:12 456

原创 pascal语法介绍

数据挖掘之数据初步探索 1. 汇总统计众数：具有最高频率的值，针对离散型数据百分位数：计算方法（3，4.3，6.2，6.5，7.6，7.8，8.1，9.6，10，11，12.3，15.9）求75%中位数：均值和中位数极差（最大值和最小值之间的差值），方差由于方差用均值计算，它对离群值比较敏感绝对平均偏差：中位数绝对偏差：四分位数极

2018-07-03 12:03:54 4620

原创 cmake

make工具有很多种，并且遵循着不同的标准，如果软件要跨平台，需针对不同的标准写不同的makefile文件。cmake：允许开发者定义一种平台无关cmakelist文件定制整个编译流程，然后根据用户的平台生成makefile文件。cmake生成makefile并编译的流程： 1.找到cmakelists.txt文件。 2.执行命令cmake path 或者ccmake path 生成makef...

2018-07-03 12:02:05 142

原创论文阅读

1.Understanding the difficulty of training deep feedforward neural networks目的：分析为什么标准梯度下降和随机初始化在神经网络上取得的效果不太理想；可以为神经网络设计更好的算法。结果：非线性激活函数的作用，logistic sigmoid激活函数不太适合随机初始化的深层神经网络，因为它的平均值会使尤其是顶层隐藏层陷入

2018-07-03 12:01:39 285

原创语言快学

1.shellshell：用c语言写的应用程序，为用户提供图形界面，用户可通过shell与linux系统进行交互shell脚本：为shell编写的脚本程序 shell编程：文本编辑器+脚本解释器 linux常用的shell：/bin/bash shell脚本程序范例： #！/bin/bash 告诉系统这个脚本需要什么解释器来执行 ...

2018-07-03 11:59:26 102

原创 hadoop安装

设置Linux环境变量的方法和区别(两种方法：通过文件或export实现)1.全局环境变量，对所有用户都会生效。/etc/environment：设置的是整个系统的环境。/etc/profile：此文件为系统的每个用户设置环境信息；当用户登陆时，此文件执行一次，并从/etc/profile.d目录的配置文件中搜集shell的配置。一般用于设置所有用户使用的全局变量/etc/bash

2018-07-03 11:57:54 144

原创算法学习

1.排序算法【大佬排序算法】2.贪心算法【大佬贪心算法】

2018-07-03 11:57:23 159

原创 git快速学习

git分布式文件版本管理系统重要名词：1.版本库（理解为一个文件目录，改目录下会有一个隐藏的文件.git，此时表示该目录是一个版本库；.git中存放暂存区和本地仓库） 2.暂存区(index或stage)：add操作将文件加入暂存区 3.本地仓库：commit -m "日志" ;commit 操作将文件加入本地仓库；com...

2018-07-03 11:56:35 164

原创快速排序 O(n)空间复杂度

leetcodepython快速排序：def quickSort(num): if num.__len__() < 2: return num left,right = [],[] base = num.pop() for val in num: if val < base: left.append(val) ...

2018-07-03 11:53:41 1466

原创零知识证明

定义：能够在不向验证者提供有效信息的情况下，使得验证者相信某种论断的正确性。浅显易懂的说明（Zcash）：https://zhuanlan.zhihu.com/p/24440530零知识证明的三条性质（https://www.jianshu.com/p/77b44709ca37）1.完备性（验证方和证明方都是诚实的，并遵循证明的每一个步骤）2.合理性（没人能假冒证明方，阿里巴巴和强盗的故事，存在一...

2018-03-15 15:01:07 775

原创 GBDT和xgboost

gbdt（gradient boost decision tree）：梯度提升决策树；由多棵决策树组成，每棵决策树都是回归树random forest（随机森林）：随机森林中的每棵树都是由从训练集中抽取的样本训练得到的；同时在构建树时随机选择特征xgboost集成学习序列集成方法：所有学习器按顺序排列组合起来并行集成方法：各个学习器并行排列bagging，boosting，stackingbagg...

2018-02-28 21:48:34 316

原创统计学习方法

理解极大似然估计和贝叶斯估计1.概率（事件发生的概率，去估计事件出现的情况）2.似然（通过事实，猜测事件最有可能发生的概率，这个概率表示成一个参数）：似然函数推测参数的分布最大似然估计就是求似然函数的极值3.贝叶斯估计（认为存在先验概率，求后验概率）经验风险或者经验损失：损失函数的平均值（理解为训练集上的平均损失）结构风险=经验风险+r*模型复杂度（模型越复杂，模型复杂度越大）当样本容量较小时，仅...

2018-02-28 20:54:32 150

翻译 gensim使用

ex：调用word2vec(sentences,iter=1)会调用句子迭代器运行两次；第一次运行负责收集单词以及单词出现的频率，从而构造一个内部字典树。第二次以及后续运行负责训练神经模型。如果sentences是不可迭代的，可手动初始化：word2vec中影响训练速度和质量的参数 1.在一个数以亿计的语料库中出现1~2次的单词非常有可能是噪音或不需要被关注；另外，也没有足够的数据对他们进行有

2018-01-02 19:16:00 544

原创 python装饰器

在函数或类不需要做任何代码修改的前提下增加额外功能，为已经存在的对象添加额外的功能，装饰器的返回值也是一个函数/类对象写这篇文章只是为了提醒自己学习，故直接引用大佬的文章！大佬关于装饰器的说明，非常详细

2018-01-02 16:23:37 144

原创 pyTorch学习

pyTorch动态的建图工具，而TensorFlow需要先建图，然后通过feed和run重复执行建好的图。动态计算图是pyTorch的主要特性：让计算模型更灵活，复杂让反向传播算法随时进行自动微分变量（一种对象，新的数据结构） autograd.Variable[ data(值) grad(梯度) creator(记录图) ]搭建深度学习网络的重点： 1.网络参数如何保存 2.网络如

2017-12-30 19:44:56 320

原创 ubuntu系统重装+显卡驱动重装

换了一块固态硬盘，又折腾了大半天来安装ubuntu，刚开始想着直接迁移至ssd，但是由于迁移过程实在太麻烦，而且不知道会发生什么，于是选择重新安装！在此记录对我自己比较重要的安装步骤。 1.安装ubuntu时，选择UEFI模式安装，同时在安装过程中出现“在UEFI模式下继续”，要选择后退。 2.分区挂载：/ (主分区，相当于windows下的c盘) /home(home分区，相当于window

2017-12-16 15:01:30 1390

原创虚拟机的安装，网络设置，java安装过程

需要软件VMWare, centos 6.5, jdk-8u151-linux-x64.tar.gz, xshell5.0, filezilla流程 1.安装虚拟机新建虚拟机自定义虚拟机选择稍后安装操作系统。选择操作系统centos6 64位，并一直点击下一步。选择将虚拟磁盘拆分成多个文件，不要选择“立即分配所有磁盘空间“，比较浪费磁盘空间。选择自定义硬件，删除...

2017-12-07 11:47:43 340

qq_26890109的博客