Chindle内容设计【2】

最新推荐文章于 2024-07-14 19:59:05 发布

iteye_6233

最新推荐文章于 2024-07-14 19:59:05 发布

阅读量69

点赞数

文章标签：数据结构与算法人工智能

简单的词频统计并不能很好地用于知识发现，例如下面的，高频词汇基本都是垃圾信息。怎么搞？求专业人士指导 O(∩_∩)O

--update--

感谢超哥给的tips，实用stopwords(停用词)果然很给力，能把大部分无意义的词汇过滤掉。

停用词：在基于词的检索系统中，停用词是指出现频率太高、没有太大检索意义的词，如“的、是、太、ｏｆ、ｔｈｅ、什么、可以”等；在基于支持向量机的自动分类中，停用词指没有实意的虚词和类别色彩不强的中性词。参考文献： http://www.sciencetimes.com.cn/upload/blog/file/2008/10/20081024135512290497.pdf

--update--

感谢镇锋的建议，TF/IDF应该是一个不错的解决思路。TF-IDF的关键是引入多份文件（多个微博用户/多条微博）来对关键词进行统计，然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。

很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语「母牛」出现了3次，那麽「母牛」一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过「母牛」一词，然後除以文件集里包含的文件总数。所以，如果「母牛」一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最後，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，「母牛」一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

参考：http://lzj0470.iteye.com/blog/306053

-update-

任务的本质是你用几个词，去描述这个人。
目标函数是：
１.尽可能多的覆盖这个人的属性
２.重要属性大字，次要属性小资
约束条件是：
有限的描述词

其中“重要”的定义，是问题的关键。
可以假设认为：
１.　词性是名词、术语、形容词通常比较重要。比如：机器学习、统计、足球、Big Table；介词可能不重要，比如：通过、因为等。
2. 有限的个数，如果词之间多一些独立、正交、不相关等关系，则覆盖较全。假设限定M个关键词，我们可以先找top 2M 个关键词，然后去掉
其中有一定语义关系的，比如“包含关系”、“近似关系”等。
3. td-idf都只根据了词出现的个数统计重要性。词出现的位置有时更加重要。比如【又现“艳照门”】
4. 通过词出现的上下文判定词的权重。比如：我转发的微博中，“京东”出现了一次，但是在改微博被其他人转发的时候，也都提到了
”京东“，那么京东的权重应该大些。

这些都是应用场景的分析，算法实现可以调研下。

附，停用词使用前和使用后的对比：

什么 => 6
时代 => 5
这个 => 4
没有 => 4
歪脖 => 3
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2
绝望 => 2
qq => 2
优化 => 2
今天 => 2
欢迎 => 2
因为 => 2
真是 => 2
要是 => 2
别人 => 2
一起 => 2
点点 => 2
积极 => 2
搞起 => 2
疯狂 => 2
容易 => 2
应用 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
不要 => 1
你们 => 1
知道 => 1
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
任何 => 1
答辩 => 1
面对 => 1
所有 => 1
让人 => 1
心平气和 => 1
依靠 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
并不是 => 1
一件 => 1
真正 => 1
得到 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
完成 => 1
470 => 1
惊喜 => 1
谦卑 => 1
这样 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
加入 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
出来 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
大家 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
就是 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
有点 => 1
原则化 => 1
到底 => 1
绝对 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
之一 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
果然 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
一下 => 1
不是 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
行动 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
争取 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
存在 => 1
价值 => 1
一样 => 1
填补 => 1
过去 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
各位 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
以前 => 1
上课 => 1
现在 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1

用停用词处理后好了不少，但还是有些词比较蛋疼：

时代 => 5
歪脖 => 3
哈哈哈 => 3
绝望 => 2
qq => 2
优化 => 2
别人 => 2
点点 => 2
搞起 => 2
疯狂 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
答辩 => 1
面对 => 1
让人 => 1
心平气和 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
一件 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
470 => 1
惊喜 => 1
谦卑 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
原则化 => 1
到底 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
价值 => 1
填补 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
上课 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1

较旧一篇:Chindle阅读(76)| 评论(23)| 分享(1)评论| 喜欢

Raywill 2011-10-13 00:39
@彭泽映 @熊皓

徐超 2011-10-13 00:39
stopwords 回复

Raywill 2011-10-13 00:41
回复徐超：分词是没有问题的，用的是sina的api，质量还可以。他们的分词给出了词性。

徐超 2011-10-13 00:42
回复Raywill：你要干什么？回复

Raywill 2011-10-13 00:44
回复徐超：哈哈，我懂了。多谢多谢~ 停用词是比较给力。什么 => 6
这个 => 4
没有 => 4
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2

这些都被干掉了。

徐超 2011-10-13 00:45
回复Raywill：词频统不能用于知识发现 => unsupervised learning 回复

Raywill 2011-10-13 00:47
回复徐超：online处理，太高级了跑不动啊。随便搞着玩，有个意思就行了。

徐超 2011-10-13 00:48
回复Raywill： unsupervised learning =>with model parameters 回复

Raywill 2011-10-13 00:48
回复徐超：求中文详解

徐超 2011-10-13 00:50
回复Raywill：google 回复

杨镇锋 2011-10-13 05:36
tf, idf? 回复

陆雪梅 2011-10-13 08:14
呃，肿么感觉你都已经搞起我们专业的东东来了，跟我们当初上的《信息组织与检索》挺像的嘛，哈哈回复

常佳 2011-10-13 09:21
支持，我也是上次玩分词的时候知道了停用词这个东西。另外，过于过滤蛋疼词有啥新解了没？从词性角度可以吗？是不是名词更能代表个人的标签？回复

Raywill 2011-10-13 09:33
回复常佳：清华的那个做得不错。基本都是名词。但是，名词中很多没有感情的词汇我还不知道如何过滤掉。Q聊。

Raywill 2011-10-13 09:33
回复陆雪梅：是嘛，求指导。

钟华 2011-10-13 09:37
itf不能解决问题？或者搞个正反集比较？回复

Raywill 2011-10-13 09:42
回复钟华：ITF好像可以呢，刚才学习了下。我的理解是：TF-IDF的关键是引入多份文件（多个微博用户/多条微博）来对关键词进行统计，然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。不知道对不对？

钟华 2011-10-13 09:47
回复Raywill: 对的。回复

朱亚东 2011-10-13 13:08
stopword list的过滤，是必须的；另外如果针对围脖的话，IDF是没有意义的回复

Raywill 2011-10-13 13:25
回复朱亚东：有何好建议？

朱亚东 2011-10-13 17:01
回复Raywill：关键我不知道你想干嘛啊。。回复

Raywill 2011-10-13 18:00
回复朱亚东：做一个跟”人人关键词“，”微博关键词“类似的应用。清华NLP实验室做了一个。你可以看看他们的效果。

熊皓 2011-10-13 19:28
关键词抽取，相关文献很多，我没研究这个，我说几个如果我去做的简单思路：
1.词性标注，去除一些ADJ，ADV之类意义不大的词
2.Topic model，用LDA跑一遍，每个topic取概率高的几个词
3.翻译模型，和检索一样，一篇文章对应若干个key words，可以建立翻译模型的。

前面两个比较容易实现
刘志远应该用了topic加上一些语义知识回复

iteye_6233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Chindle内容设计【2】

简单的词频统计并不能很好地用于知识发现，例如下面的，高频词汇基本都是垃圾信息。怎么搞？求专业人士指导 O(∩_∩)O--update--感谢超哥给的tips，实用stopwords(停用词)果然很给力，能把大部分无意义的词汇过滤掉。停用词：在基于词的检索系统中，停用词是指出现频率太高、没有太大检索意义的词，如“的、是、太、ｏｆ、ｔｈｅ、什么、可以”等；在基于支持向量机的自动分类中，停用...
复制链接

扫一扫