计算机基础知识
骑单车的王小二
切勿眼高于顶,谨记脚踏实地。
展开
-
sql 统计pv时加衰减因子
sql 统计pv时加衰减因子原创 2023-02-11 18:12:31 · 138 阅读 · 0 评论 -
中国省市区
中国省市大全原创 2022-12-05 11:23:31 · 387 阅读 · 0 评论 -
python 函数超时退出
python 函数超时退出原创 2022-11-22 16:49:34 · 519 阅读 · 0 评论 -
python 不打印elasticsearch/rediscluster等相关的日志
python 不打印elasticsearch/rediscluster等相关的日志原创 2022-11-14 17:07:01 · 816 阅读 · 1 评论 -
shell 查看当前日期时间
shell 查看当前日期时间原创 2022-11-11 13:06:28 · 2055 阅读 · 0 评论 -
sql 时间戳转换,查询一段时间内记录
sql 时间戳转换,查询一段时间内记录原创 2022-11-10 20:08:11 · 376 阅读 · 0 评论 -
常用linux命令总结
常用linux命令总结转载 2022-09-01 10:55:38 · 119 阅读 · 0 评论 -
hive url编码解码
hive url编码解码原创 2022-09-01 09:29:35 · 1443 阅读 · 0 评论 -
hadoop问题解决 Permission denied: user=root, access=READ_EXECUTE, inode=“
hadoop问题解决 Permission denied: user=root, access=READ_EXECUTE, inode="原创 2022-08-25 20:22:25 · 1267 阅读 · 0 评论 -
pytorch 构建自己的数据集并读取
Pytorch加载自己的数据集原创 2022-08-20 21:13:15 · 782 阅读 · 0 评论 -
域名映射配置(nginx+jupyterlab)
域名映射配置(nginx+jupyterlab)原创 2022-08-15 23:03:34 · 1232 阅读 · 0 评论 -
flask 静态文件服务搭建
flask 静态文件服务搭建原创 2022-07-25 21:52:14 · 583 阅读 · 0 评论 -
hive 查看表分区,删除表分区
hive 查看表分区、删除指定分区原创 2022-06-30 16:23:41 · 2741 阅读 · 0 评论 -
sql 按指定列求和
sql 按指定列求和原创 2022-06-16 11:08:07 · 2223 阅读 · 0 评论 -
python http接口调用
python http接口调用原创 2022-06-14 17:44:08 · 1895 阅读 · 0 评论 -
python txt数据导入hive表示例
load data local inpath 'txt文件路径.txt' overwrite into table 数据库名字 partition ( day = '2020-05-27',hour = '08' );原创 2022-04-18 19:50:42 · 2048 阅读 · 0 评论 -
python字符串前缀后缀匹配
#字符串前缀,后缀匹配filename = 'spam.txt'a=filename.endswith('.tt')#后缀匹配b=filename.startswith('s')#前缀匹配print(a,b)原创 2022-04-15 10:07:49 · 2714 阅读 · 0 评论 -
ModuleNotFoundError: No module named xxx 快速解决方法
原因1:没有对应的安装包解决方案:pip install 安装包名安装速度慢的话,切换源:pip切换源原因2:找不到对应的自定义文件路径解决方案:在py文件中指定自定义文件的路径import syssys.path.append('..') #这条命令是用来添加上层目录的如果不只是多层目录的调用,可以根据sys.path[0],添加自定义文件的绝对路径添加方式:print(sys.path[0])sys.path.append(sys.path[0]+文件剩余的路径) 举例:如果你原创 2022-04-12 10:45:13 · 12051 阅读 · 0 评论 -
hive 导入导出hive表数据或转换时间
date_str="2022-04-07"hive -e """set mapreduce.job.queuename=指定集群名;select * from hive表名 where day='${date_str}' and (hour BETWEEN '00' and '23') limit 100000000;""" > 指定目录/指定文件名.txt原创 2022-04-11 18:03:11 · 1462 阅读 · 0 评论 -
快速索引词向量-annoy
annoy 是 高维空间求近似最近邻的框架,速率快,轻便实用。GitHub地址:https://github.com/spotify/annoy配合腾讯词向量,可以快速查找语义接近的向量:tencent_annoy_index = AnnoyIndex(self.size,metric='angular') #存储tencent_annoy_index.add_item(index, query_vector) #添加向量tencent_annoy_index.get_nns_by_vector(原创 2022-03-16 17:46:40 · 799 阅读 · 0 评论 -
数据高效读取 pickle
# 将数据写入到文件中def writeToFile(data, path): with open(path, 'wb') as fw: pickle.dump(data, fw)# 从文件中读取数据def readFromFile(path): with open(path, 'rb') as fr: data = pickle.load(fr) return data#数据排序index=readFromFile(path+'index_name.pkl')sort_lis原创 2022-03-15 15:01:42 · 647 阅读 · 0 评论 -
京东搜索召回技术
大佬分享搜索主要经历四个阶段:召回、粗排、精排和重排,最后呈现给用户最终的结果。而召回的结果主要来自两个部分:倒排检索和语义召回。传统的倒排检索依赖字面匹配,很难去召回一些语义相似但是字面不匹配的商品。传统的语义召回策略有人工干预召回、人工构建同义词表进行同义词替换等等。但是相比于深度语义模型,这些技术费时费力,并且覆盖率低下,很难适应快速增长的海量商品的召回需求。今天想要和大家分享的是在深度学习背景下,京东基于语义的搜索召回技术和新的进展。https://mp.weixin.qq.com原创 2022-03-14 15:55:13 · 679 阅读 · 0 评论 -
pip install下载不了怎么办
常规做法:切换源还搞不定的话,去pypi官网自行下载python 包(通常为.tar.gz格式),下载好后本地解压缩,运行python setup.py install 即可实现自行安装。如果还不行python setup.py build python setup.py install ...原创 2022-03-10 19:21:36 · 1347 阅读 · 2 评论 -
linux 查看指定文件夹大小
du -h folder_path #查看指定文件夹下文件大小du -h --max-depth=0 folder_path #查看指定文件夹总大小df -lh #查看各文件夹大小原创 2022-03-08 11:33:55 · 551 阅读 · 0 评论 -
python 常规class类写法及应用
# 载入训练好的模型import reimport timeimport jiebaimport jieba.analyseimport jieba.posseg as psegimport torchfrom transformers import BertTokenizer, BertForSequenceClassification, AutoConfigdevice = torch.device("cuda" if torch.cuda.is_available() else "原创 2022-03-04 10:01:09 · 3214 阅读 · 0 评论 -
腾讯词向量公开
https://ai.tencent.com/ailab/nlp/en/embedding.html原创 2022-03-01 20:49:01 · 351 阅读 · 0 评论 -
快速解决 win10 “此电脑”无法打开
最有效的方法是使用DISM和SFC命令修复系统镜像 ,步骤如下1.点击开始按钮>输入cmd>右键点击搜索结果中的"命令提示符">以管理员身份运行 2.cmd 执行 DISM.exe /Online /Cleanup-image /Scanhealth 3.cmd 执行 DISM.exe /Online /Cleanup-image /Checkhealth 4.cmd 执行 DISM.exe /Online /Cleanup-image /Restorehealth 5.cmd原创 2022-02-23 17:11:52 · 2277 阅读 · 1 评论 -
如何高质量增量训练lac分词模型
LAC 是百度开源的高质量分词工具(GRU+CRF),其提供增量训练的接口,形如:from LAC import LAC# 选择使用分词模型lac = LAC(mode = 'seg')# 训练和测试数据集,格式一致train_file = "./data/seg_train.tsv"test_file = "./data/seg_test.tsv"lac.train(model_save_dir='./my_seg_model/',train_data=train_file, test_原创 2022-01-29 16:21:50 · 1973 阅读 · 0 评论 -
C++ map、set 基本用法
int main() { //set set<string, greater<string>> words {}; words.insert("four"); words.insert("one"); //遍历 for (set<string>::iterator it = words.begin(); it != words.end(); it++) cout << *it << " "; cout<<endl;原创 2022-01-19 11:01:20 · 115 阅读 · 0 评论 -
没有root权限怎么办
当然是用chmod啦chmod 777 文件名chmod -Rf 777 文件夹名原创 2022-01-17 14:47:38 · 862 阅读 · 0 评论 -
算法工程师必备学习
NLP相关书籍:何晗 《自然语言处理入门》王昊奋 《知识图谱 方法、实践与应用》涂铭 刘祥 刘树春 《Python自然语言处理实战:核心技术与算法》大佬团队总结:https://zhuanlan.zhihu.com/p/48529628NLP相关知识平台:https://www.zhuanzhi.ai/跟李沐学AIhttps://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144......原创 2022-01-17 09:44:58 · 334 阅读 · 0 评论 -
Python实现调用另一个路径下py文件中的函数方法总结
Python实现调用另一个路径下py文件中的函数方法总结原创 2022-01-14 14:28:41 · 1788 阅读 · 0 评论 -
ppt时间线
ppt画时间线原创 2022-01-11 19:50:05 · 269 阅读 · 0 评论 -
conda PackagesNotFoundError: The following packages are not available from current channels
conda找不到要安装的包,怎么办?接着找呗:anaconda search -t conda X ## X表示软件找到之后,把路径加上再安装conda install -c https://api.anaconda.org/andyb262 X ## X表示具体软件路径原创 2021-12-22 15:38:14 · 509 阅读 · 0 评论 -
linux 查看cuda版本
nvcc -V原创 2021-12-22 10:19:02 · 1809 阅读 · 0 评论 -
bert 保存模型并调用模型
可以看大佬是怎么用的大佬的使用方式原创 2021-12-20 10:10:15 · 964 阅读 · 0 评论 -
查看特定进程&&杀死进程
僵尸进程可能会造成内存爆炸,建议每次运行程序后,top检查下运行进程,并按下述方式查看特定进程查看特定进程ps -aux|grep 【py脚本名】杀死特定进程ps -ef | grep 【py脚本名】 | awk '{ print $2 }' | sudo xargs kill -9#没有sudo权限的话,去掉sudo...原创 2021-12-16 10:56:16 · 1472 阅读 · 0 评论 -
bert参数解析
input_ids是把词根据词表转换为数字,长度没有达到max_seq_len使用0填充。input_mask 填充的为0,真实数据长度为1.segment_ids 这个是因为BERT有的是可以使用句子的下一个句子来一起训练,所以是来分别句子类别的,第一个句子全为0,第二个句子则为1.label_ids就是你需要的label这个自己设置。...原创 2021-12-10 16:05:45 · 1375 阅读 · 0 评论 -
常用标点符号
symbols=[":","?","?",",","”","!","“","、"," ","《","》","|","(","「",")", \"|",",","。",":","-","【","】","/","×","」","<",">","!","…"]原创 2021-12-09 17:54:37 · 160 阅读 · 0 评论 -
linux 指定文件操作 - 查找、查看、重命名、移动、删除
find -name filename原创 2021-12-08 20:26:17 · 420 阅读 · 0 评论