Ice Cream_069-CSDN博客

转载如何打印csdn的文章

1.按F12进入Chorm浏览器开发者选项2.在clone中粘贴下面的代码，并按回车即可。(function(){$("#side").remove();$("#comment_title, #comment_list, #comment_bar, #comment_form, .announce, #ad_cen, #ad_bot").remove();$(".nav_top_2011...

2019-10-01 17:45:58 3196 1

命名实体识别问题可以看做是一个序列标注问题，传统的机器学习算法有三种方法做序列标注，分别是隐马尔科夫（HMM）模型，最大熵模型和条件随机场（CRF）模型。https://blog.csdn.net/Losteng/article/details/51037927HMM模型将标注看做马尔科夫链，一阶马尔科夫链针对相邻标注的关系进行建模，其中每个标记对应一个概率函数。HM是一种生成模型，定义了联合...

2019-09-06 12:15:22 1055

原创数据不平衡-机器学习

###一、首先什么是数据不平衡问题？在金融反欺诈，广告点击率等问题中，正样本特别少，负样本特别多。但是针对此类问题，（1）对于召回有特别大的需求，就是说每个正样本的预测都远比一个负样本的预测重要，如果不做任何处理，很多时候拿不到我们希望的结果，因此这个时候需要对数据进行处理。什么时候可以不用处理呢？（1）问题的指标是AUC或ROC时，处理和不处理的差别没那么大。那么问题来了AUC和ROC指标...

2019-09-06 12:13:42 1859 1

转载 AUC和ROC指标

机器学习分类器性能指标：roc曲线和auc值真正类率（True positive Rate）TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例；负正类率（False positive Rate）FPR:FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。真负率（True Negative Rate）TNR:TN/(FP+TN),代表分类器预...

2019-08-10 20:45:44 583

原创 c++打印树状目录

这是一道面试编程题在linux开发环境下，首先cd到指定的文件夹，然后vim test.cpp(创建.cpp文件，入股test.cpp文件已经存在，直接打开；如果未存在，新建之后打开)按i键进入输入模式，编写代码，写好代码之后，按esc转换到命令模式，接着按:wq保存退出，使用ls可以查看到当前目录会有test.cpp文件。对test.cpp文件进行编译，gcc++ test.cpp -o ...

2019-06-26 09:06:53 1333

原创读取和写入文件总结

C++读取文件：用文件流 ifstream，主要用到getline和stringstream#include <iostream>#include <vector>#include <fstream>#include <sstream>#include <algorithm>using namespace std;i...

2019-06-25 16:58:32 179

原创写程序的时候，用到与用户进行交互时的处理

很多时候，程序不是直接对文本内的信息进行处理，而是在用户输入之后，对用户的输入内容进行处理，这个时候就要用到用户交互，这个问题我一直没有弄的很明白，现在记录下来，方便后面查找。c语言的用户交互： char firstChar; char secondChar; printf("请输入一个字符：\n"); scanf("%c", &firstChar...

2019-06-25 16:36:17 412

原创 python中os库总结

整理文件时，想要树状输出文件夹中的目录结构，可以使用os.listdir()这个函数进行实现。import os import os.pathdef dfs_show(path,depth): if depth==0: print("root:["+path+"]") for item in os.listdir(path): print("| "*depth+"+--"+i...

2019-06-25 15:51:52 304

原创 python中pass, exit, continue和break之间的区别

break：跳出循环，不再执行·break打破最小封闭for或while循环；·break语句用来终止循环语句，即循环条件没有False条件或者序列还没有被递归调用完，也要停止执行循环语句；·break语句用在while和for循环中；·如果使用嵌套循环，break语句将停止执行最深层的循环，并开始执行下一行代码。continue:跳出本次循环，执行下一次·continue跳出本次循...

2019-06-21 12:45:42 463

原创 k-折交叉验证

一、k折交叉验证的目的（为什么要用k折交叉验证？）1.根本原因：数据有限，单一的把数据都用来做训练模型，容易导致过拟合。（反过来，如果数据足够多，完全可以不使用交叉验证。）较小的k值会导致可用于建模的数据量太小，所以小数据集的交叉验证结果需要格外注意，建议选择较大的k值。2.理论上：使用了交叉验证，模型方差“应该”降低了。在理想情况下，我们认为k折交叉验证可以 O(1/k)O(1/k)O(1...

2019-06-18 20:52:58 13121 2

原创命名实体识别（BiLSTM+CRF）（一）

Python中 sys.argv[]的用法简明解释python ast语法分析

2019-06-15 09:49:39 1967

原创决策树

链接：https://zhuanlan.zhihu.com/p/61842339一、随机森林RF与GBDT的区别二者的共同点· 都是由多棵树组成；· 最终的结果都由多棵树共同决定；· 生成样本集的时候都使用了boostrap；二者的不同点· 组成RF的可以是分类树也可以是回归树，但组成GBDT的只能是回归树；· RF可以并行，GBDT只能串行；· 对于输出结果，RF使用多数表决...

2019-06-13 17:46:20 389

原创 numpy函数

在做生成文本的项目时，遇到的函数，记录学习。1.np.zeros_like()>>> x = np.arange(6)>>> x = x.reshape((2, 3))>>> xarray([[0, 1, 2], [3, 4, 5]])>>> np.zeros_like(x)array([[0, ...

2019-06-13 17:45:11 115

原创论文《Neural Machine Translation by Jointly Learning to Align Translate》

#背景这篇论文是第一个在NLP中使用attention机制的工作。翻译任务是典型的seq2seq问题。那么，什么是seq2seq问题？简单的说就是，根据输入序列X，生成一个输出序列Y，序列的长度不固定。当输入序列X和输出序列Y是不同的语言时，就是机器翻译；当输入序列X是问题，输出序列Y是答案时，就是问答系统或者对话系统。根据输入和输出序列的特征，seq2seq主要应用在机器翻译、会话建模、文本摘...

2019-06-13 17:44:46 198

原创文本分类练习记录

这周主要复习了一个开源项目，在cnew数据集上做文本分类，简单的记录一下，方便以后查看。1.首先是数据集的介绍：cnew是一个中文的新闻数据集，标签主要有[‘体育’，‘’]10个分类，分为训练集，验证集和测试集。数据预处理部分就是一般的自然语言处理的标准过程（没有使用到分词工具，是按照字符级进行训练的），包括生成字典，把words和labels转换成对应的id, 生成批数据。2.模型部分...

2019-06-13 17:42:15 294

原创 python中正则表达式的练习

https://www.cnblogs.com/think-and-do/p/6414135.html python中正则表达式的练习1.^ 为匹配输入字符串的开始位置。2.[0-9]+匹配多个数字， [0-9] 匹配单个数字，+ 匹配一个或者多个3.abc匹配字母abc并以abc结尾，匹配字母 abc 并以 abc 结尾，匹配字母abc并以abc结尾，为匹配输入字符串的结束位置。元字符...

2019-06-13 17:39:01 438

原创 python中的形参（*args,**kwargs）

两篇博客：https://www.cnblogs.com/xuyuanyuan123/p/6674645.htmlhttps://www.cnblogs.com/zhangzhuozheng/p/8053045.html

2019-06-13 17:38:42 1190

原创自然语言处理中常遇到的正则表达式

1. str.split()与re.split()的区别str.split()：>>str="hello, world">>str.split()>> ['hello,', 'world']>>str.split(',')>> ['hello', ' world']re.split():re.split()方法可以使用正...

2019-06-13 17:37:19 569

原创神经网络的常用优化方法

目录梯度下降法（GD）随机梯度下降（SGD）批量梯度下降（BGD）小批次随机梯度下降mini-BGD动量MomentumNesterov Momentum（又叫Nesterov Accelerated Gradient）自适应方法AdagradRMSPropAdam（Adaptive Moment Estimate）参考文章梯度下降法（GD）...

2019-06-13 17:35:52 617

原创深度学习中的embedding和fintune的理解

在学习自然语言处理过程中，目前使用的神经网络模型中大都有embedding层。embedding层本质是一个降维的过程，在自然语言处理过程中，如果使用的是one-hot编码，则每个word的向量的shape是[vocab_size]。one-hot编码的缺点是：word的向量表示并不能反应两个字在语言空间中的距离。word2vec提出之后，就是将word的表示从稀疏的表示变为低维稠密空间向量的...

2019-06-13 17:33:57 3095

原创数值型数据的预处理总结

主要使用的是pandas的DataFrame的数据结构，记录一些基本操作。1.读取文件和保存文件df = pd.read_csv(文件名)result_df.to_excel(文件名：‘a.xlsx’) #将结果存在a.xlsx中，格式是excelresult_df.to_csv(文件名：‘a.csv’) #将结果存在a.csv文件中2.对df文件的一些操作df.info #查看df...

2019-06-13 15:47:58 485

转载机器学习算法：tf.contrib.crf条件随机场

tf.contrib.crf.crf_log_likelihood(inputs, tag_indices, sequence_lengths, transition_params=None)函数的目的：使用crf 来计算损失，里面用到的优化方法是：最大似然估计，即在一个条件随机场里计算标签序列的log_likelihood参数解析：inputs: [batch_size, max_s...

2019-06-09 18:54:10 544

原创面试题50:第一次只出现一次的字符

第一种求解方法是：暴力求解，并分析时间复杂度和空间复杂度扫描字符串，每次拿当前的一个字符与后面的字符进行比较，如果后面的字符没有出现该字符，则该字符是第一个只出现一次的字符；否则，扫描下一个字符。假设字符长度为n，则时间复杂度是O(n2)O(n^2)O(n2),空间复杂度是O(n)O(n)O(n).有没有更小的时间复杂度方法？使用哈希表第二种方法使用哈希表，并分析时间复杂度和空间复杂度。...

2019-06-08 13:48:24 300

原创中心极限定理与大数定律的区别

定义的区别什么是中心极限定理？中心极限定理，是说随着样本数量的增加，样本的均值分布呈正态分布。对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。什么是大数定律？大数定律（law of large numbers）是一种描述当试验次数很大时，所呈现的概率性质的定律。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算数...

2019-06-04 14:54:34 6925

转载 Transformer作为特征提取器

Transformer之前上图是经典的双向RNN模型，我们知道该模型是通过递归的方式运行，虽然适合对序列数据建模，但是缺点也很明显“它无法并行执行”也就无法利用GPU强大的并行能力，再加上各种门控机制，运行速度很慢。一般而言，编码器输出编码向量C作为解码器输入，但是由于编码向量C中所有的编码器输入值贡献相同，导致序列数据越长信息丢失越多。CNN网络相比RNN网络，它虽然可以并行执行，但是无...

2019-05-02 13:35:35 13459

原创 tensorflow中循环神经网络搭建时常用的函数介绍

tensorflow中循环神经网络搭建时常用的函数介绍tf.contrib.rnn.BasicLSTMCell()函数tf.contrinb.rnn.GRUCelltf.contrib.rnn.DropoutWrapper()函数tf.contrib.rnn.MultiRNNCell()函数tf.nn.dynamic_rnn()函数tf.reshape()操作tf.concat()tf.cont...

2019-05-02 12:46:55 515

原创 tensorflow函数学习（二）--正则和规范化

参考https://blog.csdn.net/abiggg/article/details/793689821.L2正则 tf.nn.l2_normalize的使用tf.nn.l2_normalize(x, dim, epsilon=1e-12, name=None)其中参数分别表示为：x为输入的向量；dim为l2范化的维数，dim取值为0或0或1；epsilon的范化的...

2019-04-04 18:17:32 412

原创 tensorflow函数学习（一）

1. tensorflow.Session()import tensorflow as tfstate = tf.Variable(0.0,dtype=tf.float32)one = tf.constant(1.0,dtype=tf.float32)new_val = tf.add(state, one)update = tf.assign(state, new_val) # ...

2019-04-01 11:35:30 196

原创 pycharm连接远程环境 mac

pycharm配置远程服务器环境第一步打开项目然后点“Pycharm”配置环境第二步点‘project interpreter’后面的设置“add” ，然后选用“ssh”,并输入远程服务器的网址和用户名第三步输入服务器密码，也可以选择密钥文件，但是我的不好用，直接输入密码，记住密码就可以了第四步选择使用python的路径，因为服务器中安装了anaconda,我选的是在...

2019-03-29 13:42:41 3825

weixin_36103474的博客