maprecude框架学习 hadoop:分布式文件系统MapReduce:分布式计算框架Yarn:hadoop资源调度系统使用MapReduce框架编写应用时,只用专注于业务逻辑的开发wordcount业务逻辑的开发/*** Mapper阶段* 默认InputFormat 格式下,KEYIN表示一行文本的起始偏移量,类型为LongWritable;VALUEIN表示一行文* 本,类型为Text;K...
springboot数据源 数据源定义程序与目标数据之间交互的规范和协议,可以是数据库或者文件系统;数据源对应用程序透明,开发者只需为应用程序配置数据源,即可与数据库进行连接,当更换数据库服务器或者更换数据库种类时,只需修改配置中信息。数据源分为:不提供连接池和提供连接池管理不提供连接池的数据源:DriverManagerDataSource对每个数据库连接请求建立一次新的连接,使用完毕后进行销毁;提供连接池...
Spring boot注解参数说明 Spring boot中使用MySQL数据库时@Table:指定关联的数据库表名@Id定义一条记录的唯一标识;并结合注解@GeneratedValue将其设置为自动生成@Entity@Table(name = "department")public class Department{ @Id @GeneratedValue(strategy = Generatio...
FeatureTools 原理整理 感慨于FeatureTools的强大功能,由于目前FeatureTools文档较少,在此对FeatureTools的原理进行梳理。首先理解两个重要的概念:实体和实体集对于机器学习任务的建模过程(包括一些线上比赛或者工业领域的推荐系统等等),通常是将多张表拼凑成一张表,然后进行数据清洗,特征提取等等,而FeatureTools将实体作为对象,而实体就类似于表。实体集就可以理解为一组实体,以及...
scala源代码走读 今天先分析位于scala.mllib.clustering中最简单的KMeans模型,即文件KMeans.scala。KMeans作为较简单的聚类算法,mllib中KMeans的实现方法也很简单。KMeans类的定义class KMeans private ( private var k: Int, // 簇的个数 priv...
求最长公共子序列和最长公共子串 #coding=utf-8"""求最长公共子串"""def lcsubstr(str1,str2): dp = [[0 for i in xrange(str2.__len__()+1)] for i in xrange(str1.__len__()+1)] count = 0 index = 0 for i in xrange(str1.__len__()...
求最大公约数和最小公倍数 ####求最大公约数:辗转相除法def maxcommonDivisor(num1,num2): while num2!=0: tmp = num1%num2 num1 = num2 num2 = tmp return num1###求最小公倍数:两个数相乘,然后除于最大公约数def mincommonMultiple(nu...
深度优先搜索和广度优先搜索 #!/usr/bin/python# -*- coding: utf-8 -*-class Graph(object): def __init__(self,*args,**kwargs): self.node_neighbors = {} def add_nodes(self,nodelist): for node in nodelis...
基于信息增益的离散化方法 class Feature_Discretization(object): def __init__(self): self.min_interval = 1 # 最小间隔 self.min_epos = 0.05 # 信息增益阈值 self.final_bin = [] # 最终边界 def fit(self, x, ...
过采样smote方法 class Smote: def __init__(self,samples,N=10,k=5): self.n_samples,self.n_attrs=samples.shape self.N=N self.k=k self.samples=samples self.newindex=0 #...
两个文件,同时一行行读取,进行操作 class Load_Corpus_with_Iteration(object): # 使用迭代器读取语料库 def __init__(self, labelPath, scorePath,lineList): self.labelPath = labelPath self.scorePath = scorePath self.lineL...
堆排序 """调整节点,使得满足大顶堆"""def Max_Heapify(heap,heapSize,root): left = root*2+1 right = left+1 large = root if left<heapSize and heap[left]<heap[large]: large=left if right&...
面试问题 五次及以上多项式方程没有根式解(所谓根式解,是指没有像二次方程那样的万能公式)使用牛顿迭代法来求解这种变态的高次方程。不断曲线的切线可以拟合曲线,寻找曲线的根点;知乎大神的牛顿法解释应用牛顿-拉弗森方法求解高次方程的解,需要满足以下要求:函数在整个定义域内最好是二阶可导的;起始点对求根计算影响重大,可以不断试错。...
校招全国统一模拟笔试技术类编程题参考题解(六月) 题目:一闪一闪亮晶晶,满天都是小星星,牛牛晚上闲来无聊,便躺在床上数星星。牛牛把星星图看成一个平面,左上角为原点(坐标为(1, 1))。现在有n颗星星,他给每颗星星都标上坐标(xi,yi),表示这颗星星在第x行,第y列。现在,牛牛想问你m个问题,给你两个点的坐标(a1, b1)(a2,b2),表示一个矩形的左上角的点坐标和右下角的点坐标,请问在这个矩形内有多少颗星星(边界上的点也算是矩形内)。#i...
算法题目 leetcodepython快速排序:def quickSort(num): if num.__len__() < 2: return num left,right = [],[] base = num.pop() for val in num: if val < base: left.append(val) ...
双指针问题 双指针可用于多种情景之下,用于查找数组中满足条件的数,#coding=utf-8###查找三个数加起来等于0def findThreeSum(nums,target=0): nums.sort() res = [] for left in xrange(nums.__len__()): if left > 0 and nums[left] == ...
二叉树的前序遍历,中序遍历和后序遍历(python实现) 前序遍历# Definition for a binary tree node.# class TreeNode(object):# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution(ob...
大厂算法题集【机器学习渣硕,邻近秋招努力刷题,并收集一些算法题目!!!】 题目:平面内有n个矩形, 第i个矩形的左下角坐标为(x1[i], y1[i]), 右上角坐标为(x2[i], y2[i])。如果两个或者多个矩形有公共区域则认为它们是相互重叠的(不考虑边界和角落)。请你计算出平面内重叠矩形数量最多的地方,有多少个矩形相互重叠。输入包括五行。 第一行包括一个整数n(2 <= n <= 50), 表示矩形的个数。 第二行包括n个整数x1[i](-10^...
pascal语法介绍 数据挖掘之数据初步探索 1. 汇总统计 众数:具有最高频率的值,针对离散型数据 百分位数:计算方法(3,4.3,6.2,6.5,7.6,7.8,8.1,9.6,10,11,12.3,15.9) 求75%中位数: 均值和中位数 极差(最大值和最小值之间的差值),方差 由于方差用均值计算,它对离群值比较敏感 绝对平均偏差: 中位数绝对偏差: 四分位数极