词库的扩充-百度百科的抓取-你知道这些热词吗?

2 篇文章 0 订阅
2 篇文章 0 订阅

      做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。

 

     抓取用 httpclient 应该就够了

	<dependency>
		<groupId>org.apache.httpcomponents</groupId>
		<artifactId>httpclient</artifactId>
		<version>4.1</version>
	</dependency>

    解析用htmlclener 就够了

	<dependency>
		<groupId>net.sourceforge.htmlcleaner</groupId>
		<artifactId>htmlcleaner</artifactId>
		<version>2.2</version>
	</dependency>

   

    这两个都比较简单,自己看例子基本就够了,本文不对程序进行说明。

 

    如果通过百科的开放分类浏览 进行抓取,估计抓取不了多少词条,因为它一个分类下最多显示70页,每页10条,那么每个分类下就是最多700个,并且这中间还有好多词条存在着一个词条多个分类。 这样也就抓取20w左右。也可以通过网上搜集一个词库,判断是否在百科中存在,存在的话,然后标识为百科存在的词条。

   有了初始的百科存在的词库后,可以抓取如 “杨幂” http://baike.baidu.com/view/3871.htm  词条内容中的链接,来发现新的词条,这样逐步递归抓取,估计就能抓取100w左右的词条。

 

   对这100w词条的质量评价,可以采用其中的浏览次数来进行评价,相对来说,浏览次数越高的词条,质量会越高些。

   如“杨幂”抓取http://baike.baidu.com/api/lemmacnt/3871

结果:
{ id:"3871" ,rec:159244,pv:25849568,dynamic:1}

 

看看浏览次数超过1000万的词条,看看你知道多少呢? 看看大家都浏览啥了呢 :)

 

词条  |  浏览次数 
百度百科 | 67496706
人 体 艺 术 | 37800763
杨幂 | 25817907
刘诗诗 | 19689914
名侦探柯南 | 17797786
苍 井 空 | 17193210
火影忍者 | 16955751
宫锁心玉 | 16049276
武艺 | 15985239
海贼王 | 15228379
世界杯 | 15200958
美人心计 | 14922687
LadyGaGa | 14325821
做 爱 | 13567149
刘德华 | 13411785
张翰 | 13384729
黄 色 网 站 | 13198032
死神 | 12910455
周杰伦 | 12855770
郑爽 | 12613402
许嵩 | 12187258
少女时代 | 11511218
4月16日 | 11253472
性 交 | 11138734
回家的诱惑 | 10887614
黎姿 | 10795131
暮光之城 | 10696633
张杰 | 10652092
刘亦菲 | 10536571
守护甜心 | 10433227
胡歌 | 10397058
李小龙 | 10296313
淘宝网 | 10275490
毛 泽 东 | 10237730
2ne1 | 10186473
步步惊心 | 10076771

  

  

 

  

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
百度百科约500万条词条,可用于语义关联或简单的知识网络建立,xml格式,解压后638M,请不要用记事本直接打开,我是用UE打开的,sublime好像会有乱码,文件内容示例如下: =1 <TITLE>=百度百科 =百度百度百科,网络,百科全书,百科词典 =百度知道;贴吧;百度空间;百度地图;百度新闻搜索;百度图片;百度mp3;百度Hi;百度工具栏;百度影视;百度邮编搜索;百度黄页搜索;百度杀毒;百度语音搜索;科利尔百科全书;苏联大百科全书;汇吃百科;维基百科;百度视频;百度蜘蛛;百度文库;互动百科;百度文档;百度文化共享搜索;百度盲道;百度会员;百度搜藏;百度TV;百科全书;知识掌门人;百度游戏;百度有啊;张震;科友; =http://baike.baidu.com/view/1.htm =2 <TITLE>=词条 =百度百度百科 =相关词条; =http://baike.baidu.com/view/2.htm =3 <TITLE>=编辑实验 =百度百度百科,帮助,词条,编辑 =词条;百度; =http://baike.baidu.com/view/3.htm =4 <TITLE>=馒头 =食品,饮食,面食,食谱,蒸馍 =大饼;油条;面包;饺子;花卷;包子;麻花;食品;主食;糯米饭;蛋糕;鲜肉包;米粥;面条;凉拌菜;年糕;饼干;窝头;粽子;烤饼;酥饼;汤圆;烧饼; =http://baike.baidu.com/view/4.htm =6 <TITLE>=雁荡山 =地理,旅游,旅游景点,自然景观,地质公园 =华山;泰山;普陀山;恒山;嵩山;莫干山;浣江;衡山;括苍山;双龙洞;雪窦山;天台山;天目山;楠溪江;天柱山;景宁香炉山;乌镇;杭州西湖;泽雅;白水洋;武夷山;洞宫山;桃花岛;三清山;黄山;新安江水库;崂山区;溪口;太姥山;南麂列岛;野鹤湫;庐山;江心屿;瑶溪;朱家尖;石桅岩;绍兴县;杨家溪;仙岩山;仙都风景区;大龙湫;三折瀑;五岳; =http://baike.baidu.com/view/6.htm =7 <TITLE>=灵峰 =风景,雁荡山,地理,旅游,温州 = =http://baike.baidu.com/view/7.htm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值