自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CICTech的专栏

网络口碑研究的技术实践

  • 博客(5)
  • 收藏
  • 关注

原创 Python字符串处理算法 (一)

CIC内部的核心软件系统都是搭建在linux上的,为了方便程序间的协同操作,我们还编写了很多shell script,尽管类似grep, sort, cut之类的工具用起来很爽很强大,但是shell 脚本并不适于描述稍微复杂些的逻辑跟算法,譬如我曾经写过这样的代码,猜猜它是做什么的 text=abcde echo $text|sed -r s/(.)//1 /g|cut -d" " -f1,

2008-04-30 08:45:00 5180

原创 Google的免费午餐

06年时孟严写过一篇很有意思的"MapReduce, the free lunch is not over ?", 其中提到了C++大师Herb Sutter的文章,因为CPU主频的进一步发展受到制约,我们已经不能像从前几个时代那样期待软件性能可以随着CPU的性能水涨船高,从而,"The free lunch is over" 我们将不得不基于有限的CPU主频来应对日趋复杂的应用,唯一解决之道就是

2008-04-29 17:15:00 2860

原创 文本挖掘技术在CIC的应用

数据挖掘(Data Mining)已经不是一个新鲜的概念,“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原 因,原来在美国,负责为孩子购买尿布的年轻父亲们,很多时候会顺带着给自己买些啤酒。沃尔马随后采取的措施是,将尿布和啤酒并排放在一起,结果两种产品

2008-04-16 11:41:00 6422 1

原创 情感分析(Sentiment Analysis)的难题

我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那 么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这两句话 "这瓶洗发水,适合头发很干的人用" "用了这瓶洗发水,头发变得很干"两个句子中的主要成分都差不多,"洗发水","头发",

2008-04-15 16:05:00 15399 3

原创 关于CICTech 的博客

CIC 是中国第一家网络口碑(IWOM)研究和咨询公司。从2004年开始,我们一直致力于帮助我们的客户了解博客、网络论坛和其它网络口碑平台,并从中发现价值。在过去的三年中,我们开发了一套结合相关语言分析技术和网络口碑专业知识的研究方法。CICTech是CIC的核心技术团队,CIC技术部门所从事的是一项充满挑战的工作,每天都需要面对各种新的技术,解决各种难题。从海量数据存储,自然语言分析,数据仓库,

2008-04-03 15:34:00 2610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除