- 博客(6)
- 收藏
- 关注
原创 xgboost应用于C++项目
xgboost的分类效果优于SVM,CNN等,它具有R语言和python的接口,但没有C++接口,因此需要对xgboost源码进行编译,并应用到C++项目中。xgboost源码编译具体步骤如下:1、下载旧版xgboost,最新版不含有C++源码及xgboost.sln;2、用VS打开Windows中的xgboost.sln,首先编译rabit,将会生成rabit.lib文件;3、编译x...
2019-06-28 16:54:47 3090
原创 SVM文本分类实验过程
1、分词,打标签;2、特征选择: 卡方检验def chi_select():#构建停用词表 stopwords=[] with open("../hlt_stop_words.txt","r") as stopword: for line in stopword: #遍历文件,一行行遍历,读取文本 rs = line.rep...
2018-08-02 10:59:51 2243
原创 RCNN模型文本分类
RCNN模型来源于论文 Recurrent Convolutional Neural Networks for Text Classification该模型结合RNN和CNN来实现文本分类任务,其实就是一个前向后向RNN+最大池化层,论文里将循环层视为卷积层,感觉有些牵强。在tensorflow上面实现之后的准确率不比TextCNN高,且运行速度慢了很多。...
2018-06-20 15:36:43 5839 1
转载 C++的wstring与string
窄字符,一般用于满足ASCII编码,一个单元一个charwstring 宽字符,一般用于满足UNICODE编码,一个单元两个char也就是说,宽字符,每表示一个字符其实是占了16bit,即2个char的大小。而汉字就是需要16bit来表示。在处理汉字文本时,最好使用wstring
2018-01-26 09:05:48 882
原创 Python基本数据结构总结
Python作为一种高级语言,拥有非常完善的基础库,以及第三方库,Python语言可以用少量的代码实现复杂的功能,这篇文章总结一下Python的基础数据结构。listlist是一种有序的集合,可以随时添加和删除其中的元素,类似于定义一个任意长度的数组。删除指定位置的元素,用pop(i)方法;list内部元素可以是不同类型,也可以是另一个list。tuplet
2017-11-10 10:45:27 436
转载 自编码器理解
自编码器如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入的几种不同表示(每一层代表一种表示),这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就必须捕捉可以代表输入数据的最重要的因素,就像PCA那样,找到可以代表原信息的主要成分。具体过程如下:1)给定无标签数据,用非监督方
2017-11-10 10:15:28 832
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人