超超是超超-CSDN博客

原创 RASA文章

https://blog.csdn.net/qq_42004289/article/details/89509242?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-16-89509242.pc_agg_rank_aggregation&utm_term=rasa%E6%84%8F%E5%9B%BE%E8%AF%86%E5%88%A

2021-07-28 11:09:00 172

原创条件随机场CRF

(42条消息) CRF概述_33奈何33的博客-CSDN博客_crf

2021-07-10 23:53:58 142

原创 jiaba常用方法

1、textrank的调用，用于提取关键词# textrankimport jiebasentence=""for x,w in jieba.analyse.textrank(sentence, topk=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')): print(f"weight:{x}, word:{w}")

2021-07-04 17:40:41 660

原创机器学习算法

文本相似度 — TF-IDF和BM25算法https://www.cnblogs.com/jiangxinyang/p/10516302.html

2021-06-24 17:08:05 213 2

原创 pytorch使用筆記

1、基礎語法1、torch.empty(5,3) # 創建全零矩陣（值小但不爲零）2、torch.rand(5,3) # 創建隨機值矩陣3、torch.zeros(5,3) # 全零矩陣4、torch.tensor([1.1, 2.2, 3.3]) # 直接轉化成矩陣5、x= x.new_ones(5,3, dtype=torch.double)6、x= torch.randn_like(x, dtype = torch.float)7、矩陣維度size：x.size()8

2021-06-12 17:49:58 152

原创 nlp常见观点

RNN 要逐步递归才能获得全局信息，因此一般要双向 RNN 才比较好；CNN 事实上只能获取局部信息，是通过层叠来增大感受野；Attention 的思路最为粗暴，它一步到位获取了全局信息

2021-06-12 16:09:19 128

原创 NLP知识点

文档去重：https://github.com/duoergun0729/nlp/blob/master/%E6%96%87%E6%A1%A3%E7%9B%B8%E4%BC%BC%E5%BA%A6.md

2021-05-27 21:00:13 102

原创注意力机制的快速使用

这些层可以在几秒钟内插入到你的项目中(无论是语言模型还是其他类型的RNNs)，就像使用Keras中集成的任何其他TensorFlow层一样。请看下面的例子：其中alignment_type是'global','local-m','local-p', 和'local-p*'其中之一。对于自注意力，调用SelfAttention(size=attention_size)层。from tensorflow.keras.layers import Input, Embedding, LSTM,...

2021-05-18 11:02:38 341

原创 DBSCAN基于密度聚类算法

1、直接调用sklearn模块from sklearn.cluster import DBSCANdbsc = DBSCAN(eps=0.5, min_samples=15).fit(data)labels = dbsc.labels_ #聚类得到每个点的聚类标签 -1表示噪点2、算法def dist(a, b): """ 计算两个向量的距离 :param a: 向量1 :param b: 向量2 :return: 距离 """ r

2021-05-17 19:54:16 254

原创爬虫

文献1、如何入门 Python 爬虫？ - 知乎 (zhihu.com)

2021-05-15 15:01:25 71

原创数据不平均的处理

参考文章：https://zhuanlan.zhihu.com/p/349863318https://zhuanlan.zhihu.com/p/48115406https://blog.csdn.net/meccaendless/article/details/87092254

2021-05-14 10:08:22 122

原创使用日志

基本使用，其他文件使用log = logger(__file__)调用import loggingdef logger(name): logging.basicConfig(level=logging.INFO, filename='log/log.txt', filemode='a') log = logging.getLogger(name) return log

2021-05-12 20:51:57 161

原创 gensim机器学习模块

1、随机森林RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None,

2021-05-09 15:18:23 394

原创 matplotlib基础使用教程

1、import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt.title("Matplotlib demo") plt.xlabel("x axis caption") plt.ylabel("y axis caption") plt.plot(x,y) plt.show()

2021-05-05 16:31:39 224

原创数学公式的python代码实现

1、欧氏距离公式，并排序diffMat = tile(X, (dataSize, 1)) -dataSetsqDiffMat = diffMat**2sqDistances = sqDiffMat.sum(axis = 1)distances = sqDistances**0.5SortedDistIndicies =distances.argsort()

2021-05-02 13:02:36 3277

原创 python字符编码

1、Unicodeprint('我喜欢你'.encode('unicode_escape'))得到Unicode编码：b'\\u6211\\u559c\\u6b22\\u4f60将上面的编码赋值给str后解码：复制代码#Unicodes1='\\u6211\\u559c\\u6b22\\u4f60'#转为utf-8(明文)print(s1.encode('utf8').decode('unicode_escape'))#转为utf-8编码print(s1.encode('

2021-04-29 12:35:10 42043

原创机器学习算法简介

1、EM算法（1）根据已经观察到的变量对隐藏变量进行学习的方法（2）在无法最大化，优化这个下限，不断迭代提高这个下限，得到近似最优解，这个下限就是似然函数的期望

2021-04-24 22:46:55 180

原创使用pytorch搭建神经网络

1、使用设备 DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

2021-04-24 11:52:16 90

原创 nlp专业术语

1、决策阈值2、贝叶斯公式3、机器学习：使用正确的特征构建正确的模型，已完成既定的任务（通常是输入到输出的映射）4、相似度Jaccard系数：如两句话词汇的交集，除以两句话的词汇总数，得到的结果就是jaccard系数...

2021-04-17 20:54:20 252

原创 python常用算法

1、递归函数# 1！+2！+3！+4！+5！+...+n!def factorial(n): ''' n表示要求的数的阶乘 ''' if n==1: return n # 阶乘为1的时候，结果为1,返回结果并退出 n = n*factorial(n-1) # n! = n*(n-1)! return n # 返回结果并退出res = factorial(5) #调用函数，并将返回的结果赋给resprint(res) # 打印结果...

2021-04-11 22:59:26 84

原创 NLP基础术语

1、似然函数：是给定联合样本值下关于(未知)参数。函数似然函数和密度函数是完全不同的两个数学对象：前者是关于的函数，后者是关于的函数。

2021-04-11 22:51:30 231

原创 python使用技巧

1、耗时装饰器import timedef decorate(func): def inner(): begin = time.time() func() end = time.time() result = end - begin print(f'函数{func}耗时{result}') return inner

2021-04-11 21:23:32 162

原创 numpy和pandas教程

numpy和pandas是在数据分析经常用到的两个工具，由于是使用c++写的，同时他是直接是使用了矩阵的运算，基于上述的原因，相比于python，他俩的特点就是快numpy：import numpy as np一、属性1、列表转矩阵：array= np.array([[1,2,3],[4,5,6]])2、矩阵的维数：array.ndim3、矩阵的形状：array.shape4、元素的数目：array.size二、矩阵的创建1、使用数据类型：array= np.ar.

2021-03-27 22:38:18 643

原创 pytorch常用

1、model.train和model.eval用法（1） model.train()启用 BatchNormalization 和 Dropout（2） model.eval()不启用 BatchNormalization 和 Dropout训练完 train 样本后，生成的模型 model 要用来测试样本。在 model(test) 之前，需要加上model.eval()，否则只要有输入数据，即使不训练，model 也会改变权值。这是model中含有的 batch normaliz

2021-03-27 13:07:36 304

原创常用的正则表达式

1、匹配中文字符串： [\u4e00-\u9fa5]2、匹配所有的符号：[^a-zA-Z0-9\u4e00-\u9fa5]

2021-03-19 19:29:14 917 1

原创 linux常用实用命令

1、查看进程的文件路径ll /proc/PID2、查看端口lsof -i:端口号

2021-03-19 19:00:43 90

原创 shell脚本文件使用教程

shell脚本是一种脚本语言，shell命令在linux系统中相当于DOC命令在windows系统中的作用，可以实现对硬件的控制和管理，在运维中主要是用来提高服务器管理效率

2020-12-14 00:39:05 1606

原创 Linux 后台运行python代码

有时候我们需要花比较长时间的跑python程序时，可以考虑后台运行代码。例如：在nlp领域中，往往需要花比较长的时间需训练一个模型，而通过远程工具连接Linux服务器跑python代码，如果中途关闭shell远程工具，正在运行的python代码就会终止，这时，可以通过使用后台运行python程序的方式，设置输出log保存文件，关闭shell远程工具，等第二天上班的时候可以通过查看所保存的log了解程序运行情况，省事省力。一行命令就能搞掂nohup python -u test.py > te.

2020-12-12 14:56:50 714 1

原创使用Docker安装elasticsearch

Docker安装Elastic一、拉取镜像二、启动：三、配置文件四、Docker部署ElasticSearch-Head五、使用中文分词器一、拉取镜像我这里使用的是6.4版本：docker pull elasticsearch:6.4.0二、启动：正常启动：docker run -d --name -p 9200:9200 -p 9300:9300 -e “discovery.type=single-node” docker.elastic.co/elasticsearch/elastics

2020-10-16 15:01:24 511

qq_32979147的博客