自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 资源 (11)
  • 收藏
  • 关注

原创 文本字面相似度算法回顾整理

梳理了下常用的字面相似度算法:文本字面相似度包括:Simhash序列相似度(Sequence Similarity)Jaccard相似度余弦相似度(Cosine Similarity)Levenshtein距离N-gram相似度

2024-09-02 19:51:20 762

原创 vscode自动添加python文件的头部注释

先配置settings.json (ctrl+shift+p 输入settings.json 打开), 参考: https://github.com/OBKoro1/koro1FileHeader/wiki/%E5%AE%89%E8%A3%85%E5%92%8C%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B。背景: 利用vscode 进行相关配置后可以自动添加头部注释,比如作者信息,文件创建时间、最后修改时间等。保存文件的时候,自动更新最后的编辑时间和编辑人。

2024-09-02 19:14:15 494

原创 将Anaconda虚拟环境注册为Jupyter notebook内核

将Anaconda虚拟环境注册为Jupyter notebook内核

2023-05-29 19:04:49 467

原创 报错解决git clone --quiet https://github.com/facebookresearch/detectron2.git /tmp/pip-install-wdn8va

解决在服务器上安装langchain+chatglm-6b的环境包requirements时遇到的报错

2023-05-29 16:58:47 1533

原创 linux服务器上无法git clone和下载速度慢问题的解决

国内服务器访问HuggingFace等国外资源下载速度很慢问题的解决。

2023-05-29 16:36:40 1013

原创 git clone 报错解决

fatal: unable to access 'https://github.com/xxx/project.git': Failed to connect to 127.0.0.1 port 54427: Connection refused

2023-05-22 11:34:20 1009

原创 GLM-130B-一个开放的双语通用预训练模型-论文精读

本文为作为类ChatGPT的模型ChatGLM的前期基础论文2《AN OPEN BILINGUAL PRE-TRAINED MODEL》的精读笔记。GLM-130B,主要思想概述:一个双语(英文和中文)的基于GLM的双向稠密模型。并没有使用GPT风格的架构,而是采用通用语言模型(GLM)算法(Du et al.,2022)来利用其双向注意力优势和自回归空白填充目标,模型参数为1300亿,语料约训练了4000亿个文本标记,在语义理解和文本生成任务上性能强大。

2023-05-12 17:31:32 4220 2

原创 GLM论文精读-自回归填空的通用语言模型

本文是对类ChatGPT模型ChatGLM的奠基模型GLM原理的解析,针对GLM: General Language Model Pretraining with Autoregressive Blank InfillingACL2022进行精读,参考了较多文章进行汇总和带着自己的部分求证与理解。GLM是一个针对自然语言理解和生成的通用的预训练框架。GLM将针对不同类型下游任务的预训练目标统一为了自回归填空,结合了混合的注意力机制和新的二维位置编码。

2023-05-09 15:54:01 4741

原创 DIN论文解析笔记

din论文解析笔记

2023-02-19 16:04:48 194

转载 python:pip install pandas报错Could not find a version that satisfies the requirement -添加国内镜像

添加国内镜像以解决报错:Could not find a version that satisfies the requirement numpy (from versions: )No matching distribution found for numpy

2023-02-10 20:57:17 1809

原创 hive/spark写入保存出现小文件过多的解决

数据倾斜与小文件问题。在pyspark 中直接以 spark.sql(insert into tableNew ..partition(...).select ...from tableOld)的方式写入数据时,默认未开启动态分区会报错。开启动态分区后容易造成小文件过多从而磁盘报警。

2023-02-02 14:50:58 2452

原创 pyspark将DataFrame写入tfrecord 和tf中tfrecord的解析

做特征工程时,利用pyspark 将数据处理后保存为tfrecord以供后续的模型训练。本文给一个保存为tfrecord 和对tfrecord进行解析的案例。

2023-02-02 13:05:41 1325

原创 spark读取数据写入hive数据表

pyspark 从已有数据表读取数据写入目标hive表的代码模板

2023-02-01 18:35:16 5660

原创 None(null) 和NaN的区别联系和空值处理

对于python语言中,在pandas 和 pyspark以及普通的python代码中经常遇到空值需要处理的情况,有时见到的是None,有时是null,有时是NaN,本文尝试对这三者进行一个汇总,和对于pyspark中关于空值的处理进行汇总。 目录一 、含义区分: None 和null NaN二、缺失值填充-dataframe.fillna函数 和 dataframe.na.fill函数 三、含有空值的过滤 在python代码中并没有直接的的null,但是有和其意义相近的None。对于当None值被写入

2023-02-01 16:48:51 2963

原创 pyspark 保留小数位数-笔记

pyspark中对于数值类型的值进行小数位数的保存可以通过两种方式处理,一个是select中结合functions里的bround,另一个是selectExpr中的结合round。 pyspark.sql中的functions.bround进行处理。

2023-02-01 12:00:26 1292

原创 PySpark DataFrame 的列操作

pySpark 中关于DataFrame的列的各种操作的总结

2023-01-31 17:34:48 1573

原创 分位数的理解与查询

分位数的理解和查询

2023-01-31 11:55:20 1506

原创 PySpark-DataFrame条件筛选

.where 条件筛选.filter 过滤.isin 过滤funcs.when()

2023-01-05 00:39:12 3826

原创 spark- Dataframe基本操作-查询

查询相关操作.show() 显示头n 行.printSchema() 打印表概要,.count() 查询统计表中数据行数.distinct() 去重后的数据.collect()获取所有数据到数组.head(num) 以及.take(num) 获取前num行记录.sample() 采样.select() 选择列数据.describe() 查看数据的统计分布

2023-01-03 23:42:05 4967

原创 spark-RDD学习笔记

本文是19年学生时学习林子雨老师课程中的一些学习笔记,主要内容包括RDD的概念和运行原理,rdd相关编程api接口以及对应的实例。

2023-01-02 16:38:36 1079

原创 spark理论

大数据产品与spark的一些概念与运行原理介绍

2023-01-02 16:18:17 593 1

原创 leetcode 24. 两两交换链表中的节点

力扣

2022-12-28 23:23:48 89

原创 不管怎样,写下一行也是改变

职场心得

2022-12-27 22:50:27 110

原创 力扣刷题day3- 203.移除链表元素 - 707.设计链表 - 206.反转链表

力扣刷题,

2022-12-10 00:29:11 260

原创 力扣刷题day2-977有序数组的平方和209长度最小的子数组和59螺旋矩阵

力扣刷题day2-977有序数组的平方和209长度最小的子数组和59螺旋矩阵

2022-12-09 00:26:32 335

原创 力扣刷题day1-704二分查找 和27移除元素

704二分查找 和27移除元素

2022-12-07 23:58:05 350

原创 【无标题】

join优化、group by 优化等

2022-08-23 15:01:16 287

原创 DataFrame中某列值的替换map(dict)

pandas 的dataframe 中,有时需要将某列的值替换为另一个值,pandas中可以直接利用map()里传入字典kv对的方式实现替换如下: 需要将相应的数值编码替换为实际的类别含义 。 选择对应的列,调用map传入字典kv 对结果:

2022-06-01 18:07:12 5138

原创 pandas中的字符串解析

pandas中查看各列数据类型的函数为 df.dtypes , 注意后面不用加括号。 pandas中各数据类型与python的对应关系表如下: 注意python中的字符串str类型默认是对应object,但是object并不完全具有str的特性,因此如果想要用str的特性,一般最好是是强制转换为str而不是设置为object类型。 (因为object在pandas中通常是不能全部转换为int或者float类型时就默认用object代替)。某列数据 转换为object无法正确调用str.split,得到的为空

2022-05-31 21:48:38 5181

原创 pandas中isin()函数与注意点事项

isin()函数可以直接用于选择某些特定值的数据,常用于清洗数据。注意:由于数据列的数据类型如果是int数据类型,isin里面用字符类型或者用int数据类型都能识别,但是如果数据列数据本身是字符类型,isin里面只能用字符类型才为true,而用int类型就会false实例:df=pd.DataFrame()df['E']=['3','3','4','4']print df.E.isin([3,4])print "##分割###"print df.E.isin(['3','4']..

2021-11-14 14:08:04 3519

原创 pandas.DataFrame.from_dict直接从字典构建DataFrame

pandas函数中pandas.DataFrame.from_dict 直接从字典构建DataFrame 。参数解析DataFrame from_dict()方法用于将Dict转换为DataFrame对象。 此方法接受以下参数。data: dict or array like object to create DataFrame.data:字典或类似数组的对象来创建DataFrame。 orient: The orientation of the data. The allowed valu.

2021-11-13 14:34:45 15125 1

原创 实训wide and deep model

“Here, we use the wide and deep model to predict the income labels. The wide model is able to memorize interactions with data with a large number of features but not able to generalize these learned interactions on new data. The deep model generalizes well

2021-08-25 22:47:30 171

原创 重排序算法02

本文是对七月在线重排序02课程的一个非常简答的随堂笔记。 主要围绕评价指标、pointwise、pair wise 、list wist等展开。learning to rank 由信息检索领域里的多级相关性讲起,串起评价指标MAP 、NDCG的具体计算。Point wise 、pair wise 和list wise 的区别point wise : 把query 和候选集变成一个一个的样本。下面的yi是label。训练的时候只考虑xi与yi的关系...

2021-08-24 22:47:29 377

原创 2021-08-23

Rech7推荐系统的rank 模块简单介绍本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记,本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。目录推荐系统的rank 模块简单总述ctr 预估:FM的例子FFM 引入隐向量:深度学习的应用 优化器选择:推荐系统的rank 模块简单总述通常做法: 用各种算法做 召回,比如user/item/model-based CF 等作为输入,做粗排(有的没有)...

2021-08-23 23:32:07 116

原创 User和item特征笔记

本文是对七月在线推荐课程王老师讲的关于user 和item特征的一个简单随堂笔记。 本文主要围绕关于连续型和离散化特征、用户画像的特征、embedding特征、特征选择和特征降维来展开。连续和离散化特征⊚ 为什么会有这个区分?⊚ 离散特征和连续特征的特点⊚ 离散和连续的相互转化连续值是有大小上的意义的。等距的离散化的分桶,当桶分的过大时,会导致桶底和桶尾的值没有大小区分了,所以分桶的桶距不适合分的太大。另外还有等频的离散化分桶怎么进行特征离...

2021-08-22 23:37:30 922

原创 Rech5 召回算法进阶

本文是对七月在线课程召回算法进阶的一个简单笔记记录。 本笔记主要围绕课上所讲常见召回方式、协同过滤、关联商品召回、基于图的Swing召回算法、Embedding召回(item2vec|node2vec)、YutubeDNN 、动态多兴趣挖掘模型MIND、多路召回融合。常见召回方式i2i:计算item-item相似度,用于相似推荐、相关推荐、关联推荐; u2i:基于矩阵分解、协同过滤的结果,直接给u推荐i; u2u2i:基于用户的协同过滤,先找相似用户,再推荐相似用户喜欢的item; u..

2021-08-22 00:10:51 770

原创 近期函数积累:

很多东西很简单,但是用的少且又没反复去记忆又忘了。这里对最近遇到的做个记录,坦诚的面对菜菜的自己吧。pd.get_dummies(data[col], prefix=col) # get_dummies 是利用pandas实现one hot encode的方式。此处为对指定列进行one_hot编码。 这了指定的原因是只对类别型特征列进行one_hot编码。对于其中某一列,假设改类别列的取值个数为3,则进行one-hot后该列列数则由1变为了3参考:https://blog.csdn....

2021-08-21 23:22:43 353

原创 lightgbm 安装报错解决

报错提示: ERROR: Command errored out with exit status 1: command: /bin/python -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-B6tTOW/lightgbm/setup.py'"'"'; __file__='"'"'/tmp/pip-install-B6tTOW/lightgbm/setup.py'"'"';f=get...

2021-08-21 15:27:57 3412 5

原创 用户画像构建与协同过滤笔记

本文是对七月在线关于用户画像构建与协同过滤的一个随堂笔记。用户画像部分主要围绕用户画像的核心-文本挖掘、需要哪些用户画像信息、怎么构建这些基本用户画像信息以及倒排索引的案例简单描述展开,协同过滤部分主要是实训内容,需要消化基于用户和基于item的协同过滤改进算法实现。目录需要怎么的用户画像?用户画像如何构建用户画像: 核心是做文本挖掘关键词keywords提取 的做法用户画像中的权重计算:todo 待总结概括成文字推荐系统中最核心的数据之一是 user profile...

2021-08-21 00:05:59 997

原创 Re10ch3搜索和推荐的matching技术-召回

本文是对七月在线推荐课程-搜索和推荐的matching技术-召回的一个随堂笔记,课上实际主要围绕youtube的dnn 推荐架构来讲解了召回的流程,如何理解embedding和FM的公示推导,以及deepfm的框架和实现。召回系统架构 :曝光去重: 1) 疲劳度过滤(类似重复长期不点击的类别过滤掉) 2) 最近已看过的东西的过滤 3) 业务的过滤召回索引 、流式计算 的简单介绍;Youtube 召回线下模型训练阶段, 三层 ReLU 神经网络之后接...

2021-08-18 23:21:44 202

python总结-原dell.xmind

关于Python的总结思维导图笔记

2021-06-07

第9章数据聚合与分组运算.xmind

《利用python进行数据分析 》的第9章数据聚合与分组运算思维导图笔记

2021-06-07

第8章绘图可视化.xmind

《利用python进行数据分析》的第8章绘图可视化的思维导图笔记

2021-06-07

第7章数据规整化:清理转化合并和重塑.xmind

《利用python进行数据分析》的第7章数据规整化 的思维导图笔记

2021-06-07

第6章数据加载、存储与文件格式.xmind

第6章数据加载、存储与文件格式 的思维导图笔记

2021-06-07

第5章pandas入门.xmind

利用Python进行数据分析第5章pandas入门的思维导图

2021-06-07

第4章Numpy基础:数组和矢量计算.xmind

Numpy基础:数组和矢量计算.xmind的思维导图原图

2021-06-07

Numpy基础:数组和矢量计算-笔记与代码ch04Self.ipynb

Numpy基础:数组和矢量计算-笔记与代码 对应代码

2021-06-07

封装库PCB下载

这是一个常用的PCB封装库,可以给大家画PCB图的时候作为工具使用

2015-01-26

AD的最全分类最细的视频教程

AD10破解版的AD10的视频教程,别再被那些美其名为自学网站的地方所坑了!分享让我们更快的成长和开心

2015-01-22

64位的win7系统破解版的AD10的免费和无广告注册下载,另外附有安装详解

64位win7破解版的AD10的免费和无广告注册下载,另外附有安装详解和视频教程,别再被那些美其名为自学网站的地方所坑了!分享让我们更快的成长和开心

2015-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除