2014年11月3日
1.在MyEclipse中运行写好的MapReducer,抛出:
2014-11-0310:59:24,729 WARN [main] util.NativeCodeLoader(NativeCodeLoader.java:<clinit>(62)) - Unable to loadnative-hadoop library for your platform... using builtin-java classeswhere applicable
这种错误,其实我觉得还是hadoop2.2.0版本中32位与64位的系统不一致,在网上查了一下:http://bbs.csdn.net/topics/390357699
。主要是说需要将FileUtil.java中的checkReturnValue相关的代码注释掉,
虽然有编译hadoop源码的方法:http://book.51cto.com/art/201312/422123.htm
。但是具体如何重新编译hadoopcore jar包中的fs中的FileUtil.class呢?另一种方法是将Java代码打成jar包,在命令行、
上运行即可。如:hadoopjar wordCountTest.jar Test_20141103.wordCountTest /input /output
2.执行hadoopfs -put input/* /test/input命令时,抛出错误:
put:File /test/input/file2.txt._COPYING_ could only be replicated to 0nodes instead of minReplicat
在网上查了一下是:很可能是由于上次运行其它版本的Hadoop在hdfs-site.xml文件中dfs.datanode.data.dir目录下有残留的不兼容的数据,清理掉这些数据重新建立一个目录就可以了。http://blog.csdn.net/zuiaituantuan/article/details/6533867
妹的,妹的,其实就是磁盘空间不够了,害的我浪费了那么多时间。忘记伪分布式是需要占存储空间,该数据有10多个G,坑啊。有时间还得把0.2.2下的数据删除掉。删除掉0.2.2中的data就可以了。
安装配置hadoop2.2.0
http://blog.csdn.net/zjjee/article/details/39375491
http://jingyan.baidu.com/article/7e440953d764712fc0e2eff5.html
hadoop2.2学习3在eclipse上安装hadoop插件
http://blog.163.com/gibby_l/blog/static/8300316120140180555754/
2014年11月4日
-
互信息(MutualInformation)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性。
-
N-Gram
2014年11月28日
-
感觉用搜索引擎的分词方法要好一些。
2014年11月29日
svm的准确率是输出结果的多个标签与原来测试集的标签有多少是相同的。而precise和recall只考虑一个标签。
2014年12月4日
做朴素贝叶斯算法时,训练集中N的数量多,导致在N中的特征个数可能较多,但特征的概率较小的现象,进而使得在测试集一个特征的N方向的概率较小,使测试集偏向于Y方向。解决的方法:在训练集中将Y标签的句子增多一些,让Y与N的比例尽量为1。这样就会提高Y的准确率。
2014年12月5日
将Y方向的行数增加与N的比例近似为1,但是结果变得更差了。分析原因:只是简单的对原有数据的复制,原来概率大的特征,概率还是大,应该随机生成Y方向的内容,该如何随机呢?
2014年12月12日
Webl.0时代的本质是信息的联合,以网站集中编辑、发布内容为特征,是网站到用户的单向行为,典型代表是Yahoo!网站及国内的新浪、搜狐、网易等几大门户站点。
web2.0的本质是互动,用户参与到网站内容的提供与传播,实现了网站与用户双向的交流。各种博客(weblog)、论坛、wiki等在此期间开始纷纷涌现。
web3.0。虽然当前web3.0还没有一个成熟明确的定性,但其中肯定的是对web2.0的修正和发展,强调更大的主动性和多维性,即多方用户共同建立平台、规则,多方共同创造内容、共享资源。
如何采用机器自动处理的手段对这些网络文本的内容进行情感分析判别?
非结构化文本文档(纯自然语言文本)、半结构化文本文档(如Html、XML形式网页文本)、结构化文本文档(如网页索引数据库文档)、音频文档、图像文档、视频文档及以上各类文档的混合组织形式。
pieard教授于1997年出版的专著((AffectiveComputing》中,正式提出了“情感计算”一词并给出了定义,即情感计算是关于情感、情感产生以及影响情感方面的计算。目前,对于情感计算的研究包括了情感的识别、情感的产生及情感的表达3个方向,而本文所研究的文本情感分类则属于其中的情感识别方面。
文本情感分类是情感分析(SentimentAnalysis)中的核心问题之一。情感分析着眼于确定一个说话人或者作者对于某些特定主题的态度。其中的态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感讯息。
文本情感分类通常包含三个子问题:一是文本的主客观分类,即区分出文本内容是主观的评论还是客观的陈述;其二是文本的极性分类(polarityclassifieation),又称为正负面倾向性分类,即判别文本内容是正面的肯定赞赏还是负面的否定批判;其三是文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别,这一问题通常又被称为等级推理(RatingInference)。
文本特征的表示方法:文本情感分类不同于传统的文本主题分类,需要更多的语言特征来表征文本的情感特性,如何有效的表示、获取语言特征,在文本情感分类中显得尤为重要;
文本特征的抽取机制:包括文本特征加权、特征选择方式,与传统的文本主题分类类似,不同的词语在情感区分性上也有不同的作用,需要有效地加以区别利用;
切分歧义消解和未登录词识别是当前中文分词中巫需解决的两个主要问题。
当前实际使用的分词系统,大多都是把机械分词作为一种初级切分手段,以基于统计学习的方法为主体,利用上下文语言信息,来进一步提高切分的准确率。
2014年12月31日17:33:58
微博情感分析中除了微博的内容,微博的其他信息如:内容创建时间、评论的个数等,是否会有帮助?
2015年1月12日10:19:39
Deeplearning is one of the only methods by which we can circumvent thechallenges of feature extraction.
2015年1月23日22:00:48
Ubuntu终端Ctrl+C与Ctrl+Z的区别
ctrl+c和ctrl+z都是中断命令,但是他们的作用却不一样.
ctrl+c是强制中断程序的执行,而ctrl+z的是将任务中断,但是此任务并没有结束,他仍然在进程中他只是维持挂起的状态,用户可以使用fg/bg操作继续前台或后台的任务,fg命令重新启动前台被中断的任务,bg命令把被中断的任务放在后台执行.
例如:
当你vi一个文件是,如果需要用shell执行别的操作,但是你又不打算关闭vi,因为你得
存盘推出,你可以简单的按下ctrl+z,shell会将vi进程挂起~,当你结束了那个shell操作之后,你可以用fg命令继续vi你的文件.
2014年12月29日00:20:16
Libsvm与Liblinear源码剖析与封装(一)
http://blog.csdn.net/zhzhl202/article/details/7438160
liblinear包下载
http://liblinear.bwaldvogel.de/