![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析小组相关
l_mai
这个作者很懒,什么都没留下…
展开
-
2011-10-18
今天测试了很多组数据,兴趣的分类对一些数据的分类不准确,尤其是没有明确特征的句子,对于具有明确特征的句子,如“笑话、饮食、电影”的句子分类很准确。 这导致每个用户的兴趣总是几种在那些分类不准确的几个分类中。移除语料库中那几个文件夹后,可能有些实际数据与那些分类的句子不能得到正确分类。还在测试中。 专长的分析,是否需要新的语料库还没有思路。微博的语言只能去猜测可能的专长。 打算使用分词后扫...原创 2011-10-18 16:53:05 · 51 阅读 · 0 评论 -
2011-12-2
uasvr开发备忘 在uasvr使用的过程中,首先遇到了调用servlet的方法问题,直接使用url的openstream会遇到字数的限制,后采用httpclient,能够成功调用servlet程序clsvr的GET方法,在调用过程中遇到的问题是url中非法字符要去掉,使用的是String的replaceAll的方法。 之后主要问题在于程序的速度。首先对clsvr采用了多线程处理,后采用了缓存...原创 2011-12-02 08:42:36 · 77 阅读 · 0 评论 -
2011-11-30
使用百度知道 数据的时候 ,当特征词选取的词数减少,准确度得到了提高 ubuntu apt的sources.list deb http://debian.math.nankai.edu.cn/ubuntu/ natty main universe restricted multiverse deb-src http://debian.math.nankai.edu.cn/ubuntu/ ...原创 2011-11-30 12:39:55 · 64 阅读 · 0 评论 -
2011-12-19
在ubuntu上安装ImageMagick和JMagick 1.sudo apt-get install imagemagick 2.sudo apt-get install libjmagick6-java 3.cp /usr/share/java/jmagick*.jar $JAVA_HOME/jre/lib 4.cp /usr/lib/jni/libJMagick.so /usr/l...原创 2011-12-19 16:53:17 · 45 阅读 · 0 评论 -
2011-11-01
想提高程序分析的准确度,语料库的问题很多。 百度知道:每一条的文字太少,各个分类不平衡的现象比较严重-》解决方法:重新对文字进行整合和划分 微话题:涉及内容不够全面 搜狗文本分类语料库:分类不准确 鲜果网语料库:目前测试还可以 分析原因:语料库中,没篇txt包含的文字数不能太少,每个分类包含的文字数量最好平衡。不同来源的语料库结合在一起使用并不很容易。分析不同的内容,最好采用不同的语...原创 2011-11-01 20:57:24 · 57 阅读 · 0 评论 -
2011-10-26
servlet的构造函数中可进行一些数据的缓存,这些数据只缓存一次,再次调用节省时间。 类的构造函数每次调用会重新生成类的成员变量,对于设置为静态的变量,并且多个线程使用,这些变量的初始化不能放在构造函数中。 ...原创 2011-10-26 22:44:02 · 46 阅读 · 0 评论 -
2011-10-22
为了提高程序的速度,更多的使用了变量存储,而不是每次都去硬盘上读取,速度提高了很多。但距离GC同学的目标还差很多,继续努力之。 采集数据遇到的问题。。采集时采集到的数据没有存储,浪费了流量。...原创 2011-10-22 10:59:17 · 38 阅读 · 0 评论 -
2011-10-20
语料库还要重新采集。词库还需要与分类的名称同步。原创 2011-10-20 15:32:11 · 63 阅读 · 0 评论 -
2011-10-19
专长的分析采用了新的思路,结果还可以。 java文件输入,不要忘了写close() servlet中html传值,input type text是单行文本输入,textarea可支持多行文本输入...原创 2011-10-19 16:36:06 · 50 阅读 · 0 评论 -
2012-2-20 新学期除草
上学期知识回顾: 1.贝叶斯文本分类算法 原理:将一段文字通过分词,形成一个词的组合,假设这些词语是相互独立的。在分类语料库中是不同分类的文本集合。在不同的分类集合中计算每个词出现的后验概率,每个词的概率相乘得到这一段文字出现在这个分类的后验概率。概率最大的那个分类即为这段文字的所属分类。 提高程序运行速度:在计算后验概率的过程中,原有的方法每次都要遍历语料库中的文本,通过string的co...原创 2012-02-20 20:02:16 · 96 阅读 · 0 评论