自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 RASA文章

https://blog.csdn.net/qq_42004289/article/details/89509242?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-16-89509242.pc_agg_rank_aggregation&utm_term=rasa%E6%84%8F%E5%9B%BE%E8%AF%86%E5%88%A

2021-07-28 11:09:00 172

原创 条件随机场CRF

(42条消息) CRF概述_33奈何33的博客-CSDN博客_crf

2021-07-10 23:53:58 142

原创 jiaba常用方法

1、textrank的调用,用于提取关键词# textrankimport jiebasentence=""for x,w in jieba.analyse.textrank(sentence, topk=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')): print(f"weight:{x}, word:{w}")

2021-07-04 17:40:41 660

原创 机器学习算法

文本相似度 — TF-IDF和BM25算法https://www.cnblogs.com/jiangxinyang/p/10516302.html

2021-06-24 17:08:05 213 2

原创 pytorch使用筆記

1、基礎語法1、torch.empty(5,3) # 創建全零矩陣(值小但不爲零)2、torch.rand(5,3) # 創建隨機值矩陣3、torch.zeros(5,3) # 全零矩陣4、torch.tensor([1.1, 2.2, 3.3]) # 直接轉化成矩陣5、x= x.new_ones(5,3, dtype=torch.double)6、x= torch.randn_like(x, dtype = torch.float)7、矩陣維度size:x.size()8

2021-06-12 17:49:58 152

原创 nlp常见观点

RNN 要逐步递归才能获得全局信息,因此一般要双向 RNN 才比较好;CNN 事实上只能获取局部信息,是通过层叠来增大感受野;Attention 的思路最为粗暴,它一步到位获取了全局信息

2021-06-12 16:09:19 128

原创 NLP知识点

文档去重:https://github.com/duoergun0729/nlp/blob/master/%E6%96%87%E6%A1%A3%E7%9B%B8%E4%BC%BC%E5%BA%A6.md

2021-05-27 21:00:13 102

原创 注意力机制的快速使用

这些层可以在几秒钟内插入到你的项目中(无论是语言模型还是其他类型的RNNs),就像使用Keras中集成的任何其他TensorFlow层一样。请看下面的例子:其中alignment_type是'global','local-m','local-p', 和'local-p*'其中之一。对于自注意力,调用SelfAttention(size=attention_size)层。from tensorflow.keras.layers import Input, Embedding, LSTM,...

2021-05-18 11:02:38 341

原创 DBSCAN基于密度聚类算法

1、直接调用sklearn模块from sklearn.cluster import DBSCANdbsc = DBSCAN(eps=0.5, min_samples=15).fit(data)labels = dbsc.labels_ #聚类得到每个点的聚类标签 -1表示噪点2、算法def dist(a, b): """ 计算两个向量的距离 :param a: 向量1 :param b: 向量2 :return: 距离 """ r

2021-05-17 19:54:16 254

原创 爬虫

文献1、如何入门 Python 爬虫? - 知乎 (zhihu.com)

2021-05-15 15:01:25 71

原创 数据不平均的处理

参考文章:https://zhuanlan.zhihu.com/p/349863318https://zhuanlan.zhihu.com/p/48115406https://blog.csdn.net/meccaendless/article/details/87092254

2021-05-14 10:08:22 122

原创 使用日志

基本使用,其他文件使用log = logger(__file__)调用import loggingdef logger(name): logging.basicConfig(level=logging.INFO, filename='log/log.txt', filemode='a') log = logging.getLogger(name) return log

2021-05-12 20:51:57 161

原创 gensim机器学习模块

1、随机森林RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,

2021-05-09 15:18:23 394

原创 matplotlib基础使用教程

1、import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt.title("Matplotlib demo") plt.xlabel("x axis caption") plt.ylabel("y axis caption") plt.plot(x,y) plt.show()

2021-05-05 16:31:39 224

原创 数学公式的python代码实现

1、欧氏距离公式,并排序diffMat = tile(X, (dataSize, 1)) -dataSetsqDiffMat = diffMat**2sqDistances = sqDiffMat.sum(axis = 1)distances = sqDistances**0.5SortedDistIndicies =distances.argsort()

2021-05-02 13:02:36 3273

原创 python字符编码

1、Unicodeprint('我喜欢你'.encode('unicode_escape'))得到Unicode编码:b'\\u6211\\u559c\\u6b22\\u4f60将上面的编码赋值给str后解码:复制代码#Unicodes1='\\u6211\\u559c\\u6b22\\u4f60'#转为utf-8(明文)print(s1.encode('utf8').decode('unicode_escape'))#转为utf-8编码print(s1.encode('

2021-04-29 12:35:10 41972

原创 机器学习算法简介

1、EM算法(1)根据已经观察到的变量对隐藏变量进行学习的方法(2)在无法最大化,优化这个下限,不断迭代提高这个下限,得到近似最优解,这个下限就是似然函数的期望

2021-04-24 22:46:55 180

原创 使用pytorch搭建神经网络

1、使用设备 DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

2021-04-24 11:52:16 90

原创 nlp专业术语

1、决策阈值2、贝叶斯公式3、机器学习:使用正确的特征构建正确的模型,已完成既定的任务(通常是输入到输出的映射)4、相似度Jaccard系数:如两句话词汇的交集,除以两句话的词汇总数,得到的结果就是jaccard系数...

2021-04-17 20:54:20 252

原创 python常用算法

1、递归函数# 1!+2!+3!+4!+5!+...+n!def factorial(n): ''' n表示要求的数的阶乘 ''' if n==1: return n # 阶乘为1的时候,结果为1,返回结果并退出 n = n*factorial(n-1) # n! = n*(n-1)! return n # 返回结果并退出res = factorial(5) #调用函数,并将返回的结果赋给resprint(res) # 打印结果...

2021-04-11 22:59:26 84

原创 NLP基础术语

1、似然函数:是给定联合样本值下关于(未知)参数。函数似然函数和密度函数是完全不同的两个数学对象:前者是关于的函数,后者是关于的函数。

2021-04-11 22:51:30 231

原创 python使用技巧

1、耗时装饰器import timedef decorate(func): def inner(): begin = time.time() func() end = time.time() result = end - begin print(f'函数{func}耗时{result}') return inner

2021-04-11 21:23:32 162

原创 numpy和pandas教程

numpy和pandas是在数据分析经常用到的两个工具,由于是使用c++写的,同时他是直接是使用了矩阵的运算,基于上述的原因,相比于python,他俩的特点就是快numpy:import numpy as np一、属性1、列表转矩阵:array= np.array([[1,2,3],[4,5,6]])2、矩阵的维数:array.ndim3、矩阵的形状:array.shape4、元素的数目:array.size二、矩阵的创建1、使用数据类型:array= np.ar.

2021-03-27 22:38:18 643

原创 pytorch常用

1、model.train和model.eval用法(1) model.train()启用 BatchNormalization 和 Dropout(2) model.eval()不启用 BatchNormalization 和 Dropout训练完 train 样本后,生成的模型 model 要用来测试样本。在 model(test) 之前,需要加上model.eval(),否则只要有输入数据,即使不训练,model 也会改变权值。这是model中含有的 batch normaliz

2021-03-27 13:07:36 304

原创 常用的正则表达式

1、匹配中文字符串: [\u4e00-\u9fa5]2、匹配所有的符号:[^a-zA-Z0-9\u4e00-\u9fa5]

2021-03-19 19:29:14 917 1

原创 linux常用实用命令

1、查看进程的文件路径ll /proc/PID2、查看端口lsof -i:端口号

2021-03-19 19:00:43 89

原创 shell脚本文件使用教程

shell脚本是一种脚本语言,shell命令在linux系统中相当于DOC命令在windows系统中的作用,可以实现对硬件的控制和管理,在运维中主要是用来提高服务器管理效率

2020-12-14 00:39:05 1605

原创 Linux 后台运行python代码

有时候我们需要花比较长时间的跑python程序时,可以考虑后台运行代码。例如:在nlp领域中,往往需要花比较长的时间需训练一个模型,而通过远程工具连接Linux服务器跑python代码,如果中途关闭shell远程工具,正在运行的python代码就会终止,这时,可以通过使用后台运行python程序的方式,设置输出log保存文件,关闭shell远程工具,等第二天上班的时候可以通过查看所保存的log了解程序运行情况,省事省力。一行命令就能搞掂nohup python -u test.py > te.

2020-12-12 14:56:50 714 1

原创 使用Docker安装elasticsearch

Docker安装Elastic一、拉取镜像二、启动:三、配置文件四、Docker部署ElasticSearch-Head五、使用中文分词器一、拉取镜像我这里使用的是6.4版本:docker pull elasticsearch:6.4.0二、启动:正常启动:docker run -d --name -p 9200:9200 -p 9300:9300 -e “discovery.type=single-node” docker.elastic.co/elasticsearch/elastics

2020-10-16 15:01:24 511

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除