![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析领域
文章平均质量分 67
iteye_20681
这个作者很懒,什么都没留下…
展开
-
中科院分词libICTCLAS2011部署 日志
首先系统装的是 CentOS 5 64bit # lsb_release -a <!----->使用的分词是包 Linux-64bit-JNI 将原分词程序weiboDustAPI.jar包后 放入web工程, Linux-64bit-JNI的源包全部放到tomcat /bin目录下 运行发现java.lang.UnsatisfiedLinkErr...原创 2012-05-03 16:14:20 · 116 阅读 · 0 评论 -
one-versus-rest和one-versus-one的不同
SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。目前,构造SVM多类分类器的方法主要有两类:一类是直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;另一类是间接法,主要是通过组合多个二分类器来实现多分...原创 2012-05-21 15:43:26 · 1141 阅读 · 0 评论 -
【转】文本分类 特征选择与特征权重计算的区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也...原创 2012-05-24 15:58:49 · 208 阅读 · 0 评论 -
python 读取文件异常的解决
f=open(sfile,'w')IOError: [Errno 22] invalid mode ('w') or filename: 'data/\xef\xbb\xbf507770149' 这个异常 的解决方案 不细说了 直接代码 #sfile=_key.lstrip('\xef\xbb\xbf') ...原创 2012-11-30 16:22:14 · 450 阅读 · 0 评论 -
算法类简单总结 待续
Mine算法 方法摘要:用网格判断数据的集中程度,集中程度意味着是否有关联关系方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方法都是有效MIC如果变量对x,y存在函数关系,则当样本数增加时,MIC必然趋向于1如果变量对x,y可以由参数方程c(t)=[x(t),y(t)]所表达的曲线描画,则当样本数增加时,MIC必然趋于1如果变量对x,y在...原创 2012-06-21 11:09:07 · 141 阅读 · 0 评论