自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (4)
  • 收藏
  • 关注

原创 自编朴素贝叶斯用于文本分类

python中的sklearn包其实是提供了朴素贝叶斯的函数的,但是为了更好地理解朴素贝叶斯,还是选择了自编一遍。说明:这次的朴素贝叶斯适用于文本分类的检测,所以说明一下本程序的输入输入吧~skf是由交叉验证得到的from sklearn.cross_validation import StratifiedKFold这个sklearn里提供了交叉验证的方法为啥要

2016-12-02 18:00:59 1056

原创 自编卡方检验程序 (python)

由于大作业中需要,本来是想找现成的卡方检验程序的,但是没找过,尴尬,所以一怒之下之前用了一个晚上编出来的(编程水平太渣,据说大神只用一小时.....)这里还是提一下卡方检验的处理步骤吧,虽然我在实验报告里写到了......老师在上课时提供的ppt里这部分的例子很好,放上来:这段程序的用处是对一类文章中出现的词进行卡方检验统计,找到每个类别中CHI值较大的一些作为本类的特

2016-12-02 17:33:46 4200 7

原创 文本分类中语料库的获取——对搜狗语料库进行想要格式的获取

最近一个都在整数据挖掘课程的大作业,终于告一段落,也有时间来更新一些博客。第一次接触文本分类,一个月内学到了太多,期间涉及到的一些处理上的主要部分需要总结一下,以便之后查阅。这次主要总结搜过语料库的获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗的语料库,链接推送门点击这里在这个页面中,我选择的是一个月的数据,别小看一个月,我从里面只用了24万,这24万可能在

2016-12-02 17:15:21 20815 28

文本分类实验报告(详尽版本)

本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。

2019-01-11

pygame1.9.3版本64位windows

含有pygame-1.9.3-cp35-cp35m-win_amd64.whl、pygame-1.9.3-cp34-cp34m-win_amd64.whl、pygame-1.9.3-cp27-cp27m-win_amd64.whl、pygame-1.9.3-cp36-cp36m-win_amd64.whl这几个可在win64位下使用的pygame。

2017-09-13

随机森林用于分类matlab代码

根据随机森林的原理实现的matlab代码,里面有非常详细的注释,几乎每行都有,针对分类问题,可以运行,可以根据需要,修改到自己的算法中。

2017-09-06

文本分类实验报告

本报告包括完整的文本分类处理过程,包括24万搜狗预料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。

2016-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除