- 博客(29)
- 收藏
- 关注
原创 RASA文章
https://blog.csdn.net/qq_42004289/article/details/89509242?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-16-89509242.pc_agg_rank_aggregation&utm_term=rasa%E6%84%8F%E5%9B%BE%E8%AF%86%E5%88%A
2021-07-28 11:09:00 172
原创 jiaba常用方法
1、textrank的调用,用于提取关键词# textrankimport jiebasentence=""for x,w in jieba.analyse.textrank(sentence, topk=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')): print(f"weight:{x}, word:{w}")
2021-07-04 17:40:41 660
原创 机器学习算法
文本相似度 — TF-IDF和BM25算法https://www.cnblogs.com/jiangxinyang/p/10516302.html
2021-06-24 17:08:05 213 2
原创 pytorch使用筆記
1、基礎語法1、torch.empty(5,3) # 創建全零矩陣(值小但不爲零)2、torch.rand(5,3) # 創建隨機值矩陣3、torch.zeros(5,3) # 全零矩陣4、torch.tensor([1.1, 2.2, 3.3]) # 直接轉化成矩陣5、x= x.new_ones(5,3, dtype=torch.double)6、x= torch.randn_like(x, dtype = torch.float)7、矩陣維度size:x.size()8
2021-06-12 17:49:58 152
原创 nlp常见观点
RNN 要逐步递归才能获得全局信息,因此一般要双向 RNN 才比较好;CNN 事实上只能获取局部信息,是通过层叠来增大感受野;Attention 的思路最为粗暴,它一步到位获取了全局信息
2021-06-12 16:09:19 128
原创 NLP知识点
文档去重:https://github.com/duoergun0729/nlp/blob/master/%E6%96%87%E6%A1%A3%E7%9B%B8%E4%BC%BC%E5%BA%A6.md
2021-05-27 21:00:13 102
原创 注意力机制的快速使用
这些层可以在几秒钟内插入到你的项目中(无论是语言模型还是其他类型的RNNs),就像使用Keras中集成的任何其他TensorFlow层一样。请看下面的例子:其中alignment_type是'global','local-m','local-p', 和'local-p*'其中之一。对于自注意力,调用SelfAttention(size=attention_size)层。from tensorflow.keras.layers import Input, Embedding, LSTM,...
2021-05-18 11:02:38 341
原创 DBSCAN基于密度聚类算法
1、直接调用sklearn模块from sklearn.cluster import DBSCANdbsc = DBSCAN(eps=0.5, min_samples=15).fit(data)labels = dbsc.labels_ #聚类得到每个点的聚类标签 -1表示噪点2、算法def dist(a, b): """ 计算两个向量的距离 :param a: 向量1 :param b: 向量2 :return: 距离 """ r
2021-05-17 19:54:16 254
原创 数据不平均的处理
参考文章:https://zhuanlan.zhihu.com/p/349863318https://zhuanlan.zhihu.com/p/48115406https://blog.csdn.net/meccaendless/article/details/87092254
2021-05-14 10:08:22 122
原创 使用日志
基本使用,其他文件使用log = logger(__file__)调用import loggingdef logger(name): logging.basicConfig(level=logging.INFO, filename='log/log.txt', filemode='a') log = logging.getLogger(name) return log
2021-05-12 20:51:57 161
原创 gensim机器学习模块
1、随机森林RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,
2021-05-09 15:18:23 394
原创 matplotlib基础使用教程
1、import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt.title("Matplotlib demo") plt.xlabel("x axis caption") plt.ylabel("y axis caption") plt.plot(x,y) plt.show()
2021-05-05 16:31:39 224
原创 数学公式的python代码实现
1、欧氏距离公式,并排序diffMat = tile(X, (dataSize, 1)) -dataSetsqDiffMat = diffMat**2sqDistances = sqDiffMat.sum(axis = 1)distances = sqDistances**0.5SortedDistIndicies =distances.argsort()
2021-05-02 13:02:36 3277
原创 python字符编码
1、Unicodeprint('我喜欢你'.encode('unicode_escape'))得到Unicode编码:b'\\u6211\\u559c\\u6b22\\u4f60将上面的编码赋值给str后解码:复制代码#Unicodes1='\\u6211\\u559c\\u6b22\\u4f60'#转为utf-8(明文)print(s1.encode('utf8').decode('unicode_escape'))#转为utf-8编码print(s1.encode('
2021-04-29 12:35:10 42043
原创 机器学习算法简介
1、EM算法(1)根据已经观察到的变量对隐藏变量进行学习的方法(2)在无法最大化,优化这个下限,不断迭代提高这个下限,得到近似最优解,这个下限就是似然函数的期望
2021-04-24 22:46:55 180
原创 使用pytorch搭建神经网络
1、使用设备 DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
2021-04-24 11:52:16 90
原创 nlp专业术语
1、决策阈值2、贝叶斯公式3、机器学习:使用正确的特征构建正确的模型,已完成既定的任务(通常是输入到输出的映射)4、相似度Jaccard系数:如两句话词汇的交集,除以两句话的词汇总数,得到的结果就是jaccard系数...
2021-04-17 20:54:20 252
原创 python常用算法
1、递归函数# 1!+2!+3!+4!+5!+...+n!def factorial(n): ''' n表示要求的数的阶乘 ''' if n==1: return n # 阶乘为1的时候,结果为1,返回结果并退出 n = n*factorial(n-1) # n! = n*(n-1)! return n # 返回结果并退出res = factorial(5) #调用函数,并将返回的结果赋给resprint(res) # 打印结果...
2021-04-11 22:59:26 84
原创 NLP基础术语
1、似然函数:是给定联合样本值下关于(未知)参数。函数似然函数和密度函数是完全不同的两个数学对象:前者是关于的函数,后者是关于的函数。
2021-04-11 22:51:30 231
原创 python使用技巧
1、耗时装饰器import timedef decorate(func): def inner(): begin = time.time() func() end = time.time() result = end - begin print(f'函数{func}耗时{result}') return inner
2021-04-11 21:23:32 162
原创 numpy和pandas教程
numpy和pandas是在数据分析经常用到的两个工具,由于是使用c++写的,同时他是直接是使用了矩阵的运算,基于上述的原因,相比于python,他俩的特点就是快numpy:import numpy as np一、属性1、列表转矩阵:array= np.array([[1,2,3],[4,5,6]])2、矩阵的维数:array.ndim3、矩阵的形状:array.shape4、元素的数目:array.size二、矩阵的创建1、使用数据类型:array= np.ar.
2021-03-27 22:38:18 643
原创 pytorch常用
1、model.train和model.eval用法(1) model.train()启用 BatchNormalization 和 Dropout(2) model.eval()不启用 BatchNormalization 和 Dropout训练完 train 样本后,生成的模型 model 要用来测试样本。在 model(test) 之前,需要加上model.eval(),否则只要有输入数据,即使不训练,model 也会改变权值。这是model中含有的 batch normaliz
2021-03-27 13:07:36 304
原创 shell脚本文件使用教程
shell脚本是一种脚本语言,shell命令在linux系统中相当于DOC命令在windows系统中的作用,可以实现对硬件的控制和管理,在运维中主要是用来提高服务器管理效率
2020-12-14 00:39:05 1606
原创 Linux 后台运行python代码
有时候我们需要花比较长时间的跑python程序时,可以考虑后台运行代码。例如:在nlp领域中,往往需要花比较长的时间需训练一个模型,而通过远程工具连接Linux服务器跑python代码,如果中途关闭shell远程工具,正在运行的python代码就会终止,这时,可以通过使用后台运行python程序的方式,设置输出log保存文件,关闭shell远程工具,等第二天上班的时候可以通过查看所保存的log了解程序运行情况,省事省力。一行命令就能搞掂nohup python -u test.py > te.
2020-12-12 14:56:50 714 1
原创 使用Docker安装elasticsearch
Docker安装Elastic一、拉取镜像二、启动:三、配置文件四、Docker部署ElasticSearch-Head五、使用中文分词器一、拉取镜像我这里使用的是6.4版本:docker pull elasticsearch:6.4.0二、启动:正常启动:docker run -d --name -p 9200:9200 -p 9300:9300 -e “discovery.type=single-node” docker.elastic.co/elasticsearch/elastics
2020-10-16 15:01:24 511
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人