自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 问答 (2)
  • 收藏
  • 关注

原创 LLM + RecSys 初体验(上)

最近在逛小红书的时候,发现了一个新的GPU算力租赁平台,与AutoDL和恒源云等平台类似。正巧,官网有活动,注册即送RTX 4090三个小时,CPU 5 小时。正巧最近在测试 LLM+推荐系统的 OpenP5 平台,果断入手测试!你们注册后也可以推荐给自己的朋友,这样赠送的时长是可以叠加的。

2024-01-23 15:25:04 1101

原创 论文精读: MapReduce

MapReduce是一种用于处理与生成大数据集的编程模型和实现。MapReduce中分为和。map方法处理kv对,并生成中间kv对(intermediate),reduce方法将中间kv对根据相同的key合并起来。对输入数据进行分区在集群上调度程序执行处理机器故障管理机器间通信。

2022-10-26 17:00:00 827

原创 6.824 Lab1 MapReduce

在这个实验中,将构建一个MapReduce系统,并实现一个调用Map和Reduce函数并处理文件读写的worker进程,以及一个进程,它将任务分发给worker进程并处理挂掉的worker进程。MapReduce论文(注意:本实验中使用的是“coordinator”而不是论文的“master”。)

2022-10-23 23:21:15 750 1

原创 Linux CentOS 7安装fzf和bat命令

在bashrc中定义函数fd, 作用:筛选当前目录下的所有文件夹, 回车就能直接到该目录下;目录结构越复杂,效果越明显;fd() {local dircd "$dir"}在bashrc中定义函数fe, 作用:筛选当前目录下的所有文件,回车直接vim打开所选文件;fe() {thenfi}在bashrc中定义函数fh, 作用:近似等于ctrl+r,从历史命令中搜索想要重新执行的命令,回车返回选择的命令行;fh() {}

2022-10-23 00:00:00 1377

原创 Linux时间校准

今天在centos上设置定时任务,发现执行了但时间不对,用date命令读取系统时间,发现系统时间不是当前时间。网上说用命令ntpdate pool.ntp.org校准,发现校准后date读取的时间和标准时间相差16个小时。后来找到了靠谱的校准方法,特记录一下。NTP服务器(上海) :ntp.api.bz。

2022-10-22 00:00:00 1798

原创 Macos Maven配置镜像源

(homebrew安装目录如下:/opt/homebrew/Cellar/maven/3.8.6/libexec/conf/settings.xml)由于原本默认的Maven源下载特别慢,本文记录了更换maven源的方法。

2022-10-21 00:00:00 850

原创 Macos iterm2快速上传下载文件到远程服务器

使用trzsz插件,完成对于文件的快速上传下载功能。

2022-10-20 17:43:05 3653 2

原创 【信息检索】链接分析

预先设定一些程序参数:根据题目中给定的图创建邻接矩阵:对于此题,邻接矩阵如下所示:linkMatrix[i][j]=1说明有一条从节点i指向节点j的有向边。然后开始计算转移概率矩阵:一共三步:进行幂迭代法:初始化概率分布向量:然后根据如下公式进行迭代,直到概率分布向量收敛:最终计算结果如下所示:迭代一次后即可收敛即Pagerank(d1)=0.017,Pagerank(d2)=0.492,Pagerank(d3)=0.492。简单分析可知,d2与d3是对称的。同时由于没有d

2022-07-03 17:25:54 307

原创 【信息检索】分类和聚类的实验

请自行从学校公文通获取2021年的新闻文档(爬取或手动下载),要求包括以下150篇新闻文档:“党政办公室”发布的最新的30篇新闻文档,“教务部”发布的最新的30篇新闻文档,“招生办公室”发布的最新的30篇新闻文档,“研究生院”发布的最新的30篇新闻文档,“科学技术部”发布的最新的30篇新闻文档。将“党政办公室”、“教务部”、“招生办公室”、“研究生院”和“科学技术部”作为5个class,并通过互信息和X^2为每个class选出最相关的15个特征(包含特征名称和相应的值,小数点后保留2位),并对结

2022-07-03 17:10:30 796 1

原创 【信息检索】文档评分和概率检索模型

(1). 用Java语言或其他常用语言计算附件“HW4_1.txt”中的80个英文文档(每行表示一个document,文档编号1~80)两两之间的相似度值,并据此为每个文档返回相似度最大的3个文档。要求使用cosine similarity和TF-IDF计算文档之间的相似度(保留小数点后两位),英文单词一律转为小写,不做过滤或其他转换。1.首先读取文件,转换为小写后根据正则表达式对文本进行切割分割原则是非 字母与’-’结果:2.统计文档集的字典将所有term都存入set集合之中进行去重3

2022-05-14 22:45:00 1449 1

原创 【计算机网络】交换机与VLAN配置

实验目的了解eNSP软件的使用方法。了解交换机和VLAN的配置方法。实验环境Windows系统eNSP网络仿真软件实验内容:连接双节点网络登录交换机配置双节点网络VLAN配置四节点网络VLAN实验步骤:1.连接双节点网络选用S3700型号交换机和PC终端,以及Copper型号线(即以太网线),按照下图所示的接口建立拓扑。并开启设备,所有接口指示灯为绿色。双击PC的图标,进入基础配置页面,为两台主机设置同一网段的IP地址。通过如上配置,就可以将两台PC存在于同一网

2022-05-09 23:45:00 5294 1

原创 【信息检索】索引构建和压缩的实验

(1). 针对附件“HW3.txt”中的600个文档(每行表示一个document,文档ID为1至600)(i)使用jieba中文分词(https://pypi.org/project/jieba/)或其他中文分词工具进行分词;(ii)统计600个文档中的token的总数和term的总数;(iii)构建倒排索引,并输出以下七组查询的文档ID:“迁移”,“迁移学习”,“推荐”,“深度学习”,“隐私”,“跨领域”,“跨域”。代码截图和详细的文字说明:读取文档# 读取文档,并按行分隔doc =

2022-05-02 15:00:00 451 2

原创 吴恩达机器学习作业 基于BP神经网络的手写数字识别

前言参考代码与作业指引请自行下载:github地址,以下为答案与解析。实验目的:理解BP神经网络的基本原理掌握BP神经网络的模型选择和参数估计方法利用手写数字数据,掌握BP神经网络,并实现对手写数字数据的识别实验要求:根据所给文档和代码注释的提示独立完成代码中的缺失部分。根据实验报告模板的步骤完成实验报告(需要有必要的图或表)方法、步骤:1. 代价函数在nnCostFunction.py中,编写代价函数根据数学公式实现代码如下所示: # 2.计算代价函数

2022-04-30 00:00:00 1599 5

原创 【计算机网络】Socket网络编程

实验目的理解UDP与TCP套接字的区别掌握UDP和TCP套接字编程方法了解简单网络应用的编程思路了解网络编程相关的一些库实验环境macos + python3实验内容:URL 请求程序系统时间查询网络文件传输网络聊天室实验步骤:1.URL请求程序代码截图与文字解释:调用requests库,可以获得url信息r.content中包含了html内容,然后将其写入file之中 url = input('Enter a URL: ') r = requests

2022-04-26 14:48:19 3405 1

原创 【信息检索】词典、倒排记录表和容错式检索

博客地址:https://www.codingshen.com/archives/%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E8%AF%8D%E5%85%B8%E5%80%92%E6%8E%92%E8%AE%B0%E5%BD%95%E8%A1%A8%E5%92%8C%E5%AE%B9%E9%94%99%E5%BC%8F%E6%A3%80%E7%B4%A2(1). 考虑利用如下带有跳表指针的倒排记录表和两个中间结果表(如下所示,不存在跳表指针)分别进行合并操作。3 5

2022-04-13 00:00:00 1340

原创 利用Docker 基于Uptime Kuma搭建服务器监控

效果图界面入口可以使用Uptime Kuma对于服务器或者网站运行情况进行监控搭建方法测试服务器:腾讯云服务区器 centos7.6安装Docker如果先前已经安装了docker,可以忽略此步运行指令curl -sSL https://get.daocloud.io/docker | sh安装Docker镜像安装Docker镜像docker volume create uptime-kuma运行服务,服务端口号为3001service docker startdocke

2022-04-12 00:00:00 877 3

原创 【操作系统】并发程序设计

参考博客地址实验目的加深对进程的创建、运行、撤销过程的直观认识;掌握通过操作系统的用户接口(命令行和系统函数)控制进程状态的方法;了解多进程在多核处理机上的并发执行过程;实验环境Centos 7.6实验内容:可以使用Linux或其它Unix类操作系统;学习该操作系统提供的命令行启动、撤销进程的方法;学习该操作系统提供的系统调用接口(借助于库函数的形式间接调用)启动和撤销进程;利用该操作系统提供的工具观测这些程序的并发执行过程以及状态转换过程。实验步骤:1. 预备部分:1) 学习t

2022-04-10 00:00:00 2178

原创 Macos利用sshfs 将远程服务器挂载到访达

个人博客地址:www.codingshen.com系统信息首先说明一下我的机器信息:MacbookPro M1 Pro 14英寸macos版本:Monterey 12.3前言经过一系列的尝试以及网上的教程,我尝试使用brew install sshfs指令直接下载,发现会失败。原因是由于macfuse无法安装。同时我又尝试从github官网上下载,最新版本sshfs3.0+,由于需要fuse3的支持(但是fuse3并没有加入对macos的支持),同样失败了。准备工作前面提到了两个失败的

2022-04-07 00:00:00 2951

原创 王者荣耀英雄战力 最低战区查询

个人博客地址: www.codingshen.com今天在逛博客的时候看到了一位博主分享了一个开源的网址,用于查询王者荣耀英雄战力。原网址如下:https://lza59.com/archives/25.html。感觉很有意思就转了过来。希望西施姐姐早日重回金牌🏅!!前言王者荣耀中,我们玩的每个英雄,都会形成自己的荣耀战力,其实英雄荣耀战力排名不仅跟英雄具体战力有关系,还跟玩家选择的荣耀战区有关系,越是冷门的地方人越少,战力排名越低。很多小伙伴们打王者希望更轻松的拿到金标,鉴于此向大家分享王者战

2022-04-04 03:36:06 15894 7

原创 【计算机网络】使用WireShark数据包抓取与分析

实验目的学习安装、使用协议分析软件,掌握基本的数据报抓取、过滤和分析方法,能分析HTTP、TCP、ICMP等协议。实验环境使用具有Internet连接的MacOs操作系统;抓包软件Wireshark。实验内容:安装学习Wireshark软件抓包与分析HTTP协议分析TCP协议分析TCP三次握手分析ICMP协议实验步骤:1. 安装学习Wireshark软件(1) 首先在官网下载wireshark软件根据系统版本选择macOS Arm 64-bit.dmg并安装(2) 运行

2022-03-29 05:48:25 14809 1

原创 吴恩达机器学习作业 逻辑回归

前言参考代码与作业指引请自行下载:github链接,以下为答案与解析。逻辑回归1. sigmoid函数首要需要完成对于sigmoid函数的编写sigmoid函数的计算公式表达如下:g(z)=11+e−z g(z) = \frac{1}{1+e^{-z}} g(z)=1+e−z1​具体代码实现如下所示:def sigmoid(z): g = np.zeros(z.shape) g = 1 / (1 + np.exp(-z)) return g运行主函数,我们可以

2022-03-29 05:47:28 745

原创 吴恩达机器学习作业 线性回归

前言参考代码与作业指引请自行下载:github链接,以下为答案与解析。单变量线性回归

2022-03-18 21:44:27 1660

原创 【信息检索】布尔检索和倒排索引

布尔检索和倒排索引的建立。信息检索理论的基础知识

2022-03-15 05:35:27 3415

原创 【计算机网络】常用网络命令

实验目的了解ping、ipconfig 、netstat、tracert、ARP、route、nslookup等常用网络工具的功能以及使用方法,并通过这些工具发现或者验证网络中的故障。

2022-03-13 16:17:59 23823 13

原创 539. 最小时间差

给定一个 24 小时制(小时:分钟 “HH:MM”)的时间列表,找出列表中任意两个时间的最小时间差并以分钟数表示。示例 1:输入:timePoints = [“23:59”,“00:00”]输出:1思路:根据时间进行排序然后依次计算时间差(最后需要重新计算一下第一与最后一个的时间差,例如0:0与23:59时间差为1)代码:class Solution {public: int func(string s){ return ((s[0]-'0')*10+(s[1]-'

2022-01-18 23:59:36 3542

原创 96.不同的二叉搜索树

给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。示例 1:输入:n = 3输出:5思路:对于n个节点而言,可以以1-n中任意元素j为根节点根节点左侧的二叉搜索树元素均小于j,数量为j-1个,树的形状有dp[j-1]种可能性。同理右侧左侧的二叉搜索树元素均大于j,数量为i-j个,树的形状为dp[i-j]个。根据排列组合的原理,对于每一个以j为根节点的二叉搜索树,有dp[j−1]∗dp[i−j]dp[j-1]*

2022-01-18 23:57:10 315

原创 343. 整数拆分

给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 × 1 = 1。思路:dp定义:dp[i]代表数字i拆分的最大乘积。递推公式:dp[i]=max1≤j≤i−2(dp[i],max(j∗(i−j),j∗dp[i−j]))dp[i]=max_{1\le j\le i-2}(dp[i],max(j*(i-j),j*dp[i-j]))dp[i]=max1≤j≤i−2​(dp[i

2022-01-18 23:53:18 359

原创 【Leetcode】63. 不同路径 II

一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为“Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为“Finish”)。现在考虑网格中有障碍物。那么从左上角到右下角将会有多少条不同的路径?网格中的障碍物和空位置分别用 1 和 0 来表示。示例 1:输入:obstacleGrid = [[0,0,0],[0,1,0],[0,0,0]]输出:2解释:3x3 网格的正中间有一个障碍物。从左上角到右下角一共有 2 条不同的路径:

2022-01-18 22:53:48 278

原创 【LeetCode】343.整数拆分

给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 × 1 = 1。思路:dp定义:dp[i]代表数字i拆分的最大乘积。递推公式:dp[i]=max1≤j≤i−2(dp[i],max(j∗(i−j),j∗dp[i−j]))dp[i]=max_{1\le j\le i-2}(dp[i],max(j*(i-j),j*dp[i-j]))dp[i]=max1≤j≤i−2​(dp[i

2022-01-18 22:05:04 471

原创 【LeetCode】746.使用最小花费爬楼梯

给你一个整数数组 cost ,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选择向上爬一个或者两个台阶。你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。请你计算并返回达到楼梯顶部的最低花费。示例 1:输入:cost = [10,15,20]输出:15解释:你将从下标为 1 的台阶开始。支付 15 ,向上爬两个台阶,到达楼梯顶部。总花费为 15 。代码:class Solution {public: int minCostCl

2022-01-18 21:33:20 323

原创 【LeetCode】453.无重叠区间

给定一个区间的集合,找到需要移除区间的最小数量,使剩余区间互不重叠。注意:可以认为区间的终点总是大于它的起点。区间 [1,2] 和 [2,3] 的边界相互“接触”,但没有相互重叠。示例 1:输入: [ [1,2], [2,3], [3,4], [1,3] ]输出: 1解释: 移除 [1,3] 后,剩下的区间没有重叠。思路:按照右边界排序,就要从左向右遍历,因为右边界越小越好,只要右边界越小,留给下一个区间的空间就越大,所以从左向右遍历,优先选右边界小的。右边界排序之后,局部最优:优先选右

2022-01-18 04:18:12 314

原创 【LeetCode】452.用最少数量的箭引爆气球

在二维空间中有许多球形的气球。对于每个气球,提供的输入是水平方向上,气球直径的开始和结束坐标。由于它是水平的,所以纵坐标并不重要,因此只要知道开始和结束的横坐标就足够了。开始坐标总是小于结束坐标。一支弓箭可以沿着 x 轴从不同点完全垂直地射出。在坐标 x 处射出一支箭,若有一个气球的直径的开始和结束坐标为 xstart,xend, 且满足 xstart ≤ x ≤ xend,则该气球会被引爆。可以射出的弓箭的数量没有限制。 弓箭一旦被射出之后,可以无限地前进。我们想找到使得所有气球全部被引爆,所需的弓箭

2022-01-18 03:47:42 282

原创 【数据挖掘】天池挑战赛 新闻推荐

比赛网址:https://tianchi.aliyun.com/competition/entrance/531842/introduction一、项目知识点数据预处理;数据可视化;特征工程;模型选择;实验结果的评价;二、实验过程一、比赛任务分析1.赛题背景赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章2.赛题数据数据来自某新闻APP平台的用户交互数据,包括30万用户,近3

2021-12-18 20:47:48 3683 1

原创 【数据挖掘】新闻推荐比赛 Task4 特征工程

制作与用户历史行为相关特征对于每个用户, 获取最后点击的N个商品的item_id对于该用户的每个召回商品, 计算与上面最后N次点击商品的相似度的和(最大, 最小,均值), 时间差特征,相似性特征,字数差特征,与该用户的相似性特征用户和文章特征文章自身的特征, 文章字数,文章创建时间, 文章的embedding (articles表中)用户点击环境特征, 那些设备的特征(这个在df中)对于用户和商品还可以构造的特征:基于用户的点击文章次数和点击时间构造可以表现用户活跃度的特征基于文章被

2021-12-02 15:08:21 374

原创 【数据挖掘】新闻推荐比赛 Task3 多路召回

召回思路YouTubeDNNitemcf recall根据用户历史读过的文章,推荐相似的文章usercf recall根据用户间的相似性,推荐相似用户读过的文章冷启动问题文章冷启动文章从未被读过用户冷启动用户从未登录过多路召回基于itemcf计算的item之间的相似度sim进行的召回基于embedding搜索得到的item之间的相似度进行的召回YoutubeDNN召回YoutubeDNN得到的user之间的相似度进行的召回基于冷启动策略的召回...

2021-12-02 15:07:51 318

原创 【数据挖掘】新闻推荐比赛 Task2 特征工程

1. 多路召回定义所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用例如新闻推荐,召回规则可以是“热门新闻”、“作者召回”、“关键词召回”、“主题召回“、”协同过滤召回“等等。2. 读取模式debug模式抽取小数据集进行训练线下验证模式利用train数据集进行训练,利用test数据集进行验证线上模式利用train+test数据集进行训练...

2021-12-02 15:02:39 1055

原创 【数据挖掘】新闻推荐比赛 Task1 Baseline

Baseline 技巧baseline链接提交结果:online / offline区别online调用所有数据作为训练集offline仅调用训练集进行训练# debug模式:从训练集中划出一部分数据来调试代码def get_all_click_sample(data_path, sample_nums=10000): """ 训练集中采样一部分数据调试 data_path: 原数据的存储路径 sample_nums: 采样数目

2021-12-02 14:59:58 393

原创 【数据挖掘】二手汽车交易预测

一.数据探索数据集的格式如下:在这里插入图片描述特征可以分成三类:1.日期特征: regDate, creatDate2.类别特征: name, model, brand, bodyType, fuelType, gearbox, notRepairedDamage, regionCode, seller, offerType3.数值特征: power, kilometer和15个匿名特征主要关注特征的缺失率和nunique信息,主要是看有没有缺失过多或nunique太少的特征,一般情况下这两

2021-11-30 10:29:29 1361 1

原创 【数据挖掘】Kaggle泰坦尼克号分类与预测

一:题目解读1.1数据读取读取训练集的数据。data = pd.read_csv('data/train.csv')data.head()1.2字段解释PassengerId: 乘客IDSurvived: 是否生存,0代表遇难,1代表还活着Pclass: 船舱等级:1Upper,2Middle,3LowerName: 姓名Sex: 性别Age: 年龄SibSp: 兄弟姐妹及配偶个数Parch:父母或子女个数Ticket: 乘客的船票号Fare: 乘客的船票价Cabin:

2021-11-04 15:21:26 4216 4

原创 【数据挖掘】可视化分析实验

github项目地址问题1:商店客流量数据可视化1.0 文件读取1.shop = pd.read_csv('dataset/shop_payNum_new.csv', index_col=0, parse_dates=True) 2.shop.head() 1.1绘制所有便利店的10月的客流量折线图。第一步:筛选出所有10月的数据,并且保留shop_id和pay_num1.Octobor_shop = shop.iloc[shop.index.month == 10, :2] .

2021-10-12 15:44:17 1186

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除