抓取
iteye_14903
这个作者很懒,什么都没留下…
展开
-
词库的扩充-百度百科的抓取-你知道这些热词吗?
做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。 抓取用 httpclient 应该就够了 <dependency> <groupId>org.apache.httpcomponents</groupId&g...2011-09-22 17:07:30 · 215 阅读 · 0 评论 -
词库的扩充-百度百科的抓取(二)
前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199 是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。 百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也...2013-03-01 16:09:48 · 164 阅读 · 0 评论