2014年11月3日至2014年12月29日

最新推荐文章于 2022-03-30 23:08:03 发布

无间虚者

最新推荐文章于 2022-03-30 23:08:03 发布

阅读量1k

点赞数

分类专栏：日记整理文章标签：微博统计学搜索引擎

本文链接：https://blog.csdn.net/wangyaqi123/article/details/43452005

版权

日记整理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

2014年11月3日

1.在MyEclipse中运行写好的MapReducer，抛出：

2014-11-0310:59:24,729 WARN [main] util.NativeCodeLoader(NativeCodeLoader.java:<clinit>(62)) - Unable to loadnative-hadoop library for your platform... using builtin-java classeswhere applicable

这种错误，其实我觉得还是hadoop2.2.0版本中32位与64位的系统不一致，在网上查了一下：http://bbs.csdn.net/topics/390357699

。主要是说需要将FileUtil.java中的checkReturnValue相关的代码注释掉，

虽然有编译hadoop源码的方法：http://book.51cto.com/art/201312/422123.htm

。但是具体如何重新编译hadoopcore jar包中的fs中的FileUtil.class呢？另一种方法是将Java代码打成jar包，在命令行、

上运行即可。如：hadoopjar wordCountTest.jar Test_20141103.wordCountTest /input /output

2.执行hadoopfs -put input/* /test/input命令时，抛出错误：

put:File /test/input/file2.txt._COPYING_ could only be replicated to 0nodes instead of minReplicat

在网上查了一下是：很可能是由于上次运行其它版本的Hadoop在hdfs-site.xml文件中dfs.datanode.data.dir目录下有残留的不兼容的数据，清理掉这些数据重新建立一个目录就可以了。http://blog.csdn.net/zuiaituantuan/article/details/6533867

妹的，妹的，其实就是磁盘空间不够了，害的我浪费了那么多时间。忘记伪分布式是需要占存储空间，该数据有10多个G，坑啊。有时间还得把0.2.2下的数据删除掉。删除掉0.2.2中的data就可以了。

安装配置hadoop2.2.0

http://blog.csdn.net/zjjee/article/details/39375491

http://jingyan.baidu.com/article/7e440953d764712fc0e2eff5.html

hadoop2.2学习3在eclipse上安装hadoop插件

http://blog.163.com/gibby_l/blog/static/8300316120140180555754/

2014年11月4日

互信息(MutualInformation)是信息论里一种有用的信息度量，它是指两个事件集合之间的相关性。

N-Gram

2014年11月28日

感觉用搜索引擎的分词方法要好一些。

2014年11月29日

svm的准确率是输出结果的多个标签与原来测试集的标签有多少是相同的。而precise和recall只考虑一个标签。

2014年12月4日

做朴素贝叶斯算法时，训练集中N的数量多，导致在N中的特征个数可能较多，但特征的概率较小的现象，进而使得在测试集一个特征的N方向的概率较小，使测试集偏向于Y方向。解决的方法：在训练集中将Y标签的句子增多一些，让Y与N的比例尽量为1。这样就会提高Y的准确率。

2014年12月5日

将Y方向的行数增加与N的比例近似为1，但是结果变得更差了。分析原因：只是简单的对原有数据的复制，原来概率大的特征，概率还是大，应该随机生成Y方向的内容，该如何随机呢？

2014年12月12日

Webl.0时代的本质是信息的联合,以网站集中编辑、发布内容为特征,是网站到用户的单向行为,典型代表是Yahoo!网站及国内的新浪、搜狐、网易等几大门户站点。

web2.0的本质是互动,用户参与到网站内容的提供与传播,实现了网站与用户双向的交流。各种博客(weblog)、论坛、wiki等在此期间开始纷纷涌现。

web3.0。虽然当前web3.0还没有一个成熟明确的定性,但其中肯定的是对web2.0的修正和发展,强调更大的主动性和多维性,即多方用户共同建立平台、规则,多方共同创造内容、共享资源。

如何采用机器自动处理的手段对这些网络文本的内容进行情感分析判别？

非结构化文本文档(纯自然语言文本)、半结构化文本文档(如Html、XML形式网页文本)、结构化文本文档(如网页索引数据库文档)、音频文档、图像文档、视频文档及以上各类文档的混合组织形式。

pieard教授于1997年出版的专著((AffectiveComputing》中,正式提出了“情感计算”一词并给出了定义,即情感计算是关于情感、情感产生以及影响情感方面的计算。目前,对于情感计算的研究包括了情感的识别、情感的产生及情感的表达3个方向,而本文所研究的文本情感分类则属于其中的情感识别方面。

文本情感分类是情感分析(SentimentAnalysis)中的核心问题之一。情感分析着眼于确定一个说话人或者作者对于某些特定主题的态度。其中的态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感讯息。

文本情感分类通常包含三个子问题:一是文本的主客观分类,即区分出文本内容是主观的评论还是客观的陈述;其二是文本的极性分类(polarityclassifieation),又称为正负面倾向性分类,即判别文本内容是正面的肯定赞赏还是负面的否定批判;其三是文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别,这一问题通常又被称为等级推理(RatingInference）。