维基百科数据整理感想

原创 2013年12月02日 16:39:29

这段时间一直在整理维基离线数据库的东西,收获很多:

1、看完手册再动手

一开始拿到数据库就开始写程序,连离线数据库的格式说明都没有看,自然是各种失败,无意中看了格式手册,恍然大悟,便很顺利的在写,收取的信息也很不错。

2、繁简互转

在中文数据中,繁简都有,这个处理起来比较麻烦,于是先都转成简体然后载处理,这样就好处理多了。

3、格式转换

现在一拿到维基数据都是先转换成自己的格式再处理,这样自己写的程序就可以一直用了。

4、数据与表现分离

现在深深感觉到两者分离的好处,一开始的界面展示程序一直在用,只需要把数据处理就可以了。每次改数据和改界面都互不影响。

5、想好思路再动手

现在想程序思路,画流程图什么都要很长时间,写代码相对就容易,逻辑上的错误十分容易找出,语法等错误,一般情况下只需百度就行。

python爬虫--爬取维基百科(六步理论深度爬取)

分析维基百科页面中指向词条页面(不是指向其他内容页面)的链接,会发现它们都有三个共同点: • 它们都在id 是bodyContent 的div 标签里 • URL 链接不包含分号 • URL 链...
  • u014518506
  • u014518506
  • 2016年12月07日 14:10
  • 3317

获取并处理中文维基百科语料

中文语料库中,质量高而又容易获取的语料库,应该就是维基百科的中文语料了,而且维基百科相当厚道,每个月都把所有条目都打包一次(下载地址在这里:https://dumps.wikimedia.org/zh...
  • jdbc
  • jdbc
  • 2017年03月02日 10:51
  • 2352

分享维基百科里的深度学习简介

简介[编辑] 深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2],而人工神经网络的历史更为久远。1989年,燕乐存(Yann LeCun)等人开始将1...
  • zjxiaolu
  • zjxiaolu
  • 2015年04月20日 20:16
  • 2085

chrome 下使用维基百科

维基百科是非常好用的查询工具生活在国内怎么使用了下面提供几种方法:           使用环境:  window               浏览器推荐: chrome     1. 插件:    ...
  • u010278862
  • u010278862
  • 2017年06月14日 15:51
  • 327

维基百科api的简单调用以及wiki 标记的转义(pear的安装以及使用)

API格式:http://语言缩写.wikipedia.org/w/api.php?&action=query&titles=语言对应的文字&format=返回格式&prop=revisions&rv...
  • slyjit
  • slyjit
  • 2014年12月31日 17:55
  • 2810

数据挖掘这一大领域的感想

转自http://blogs.baomitec.com/2015/05/08/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E7%9A%84%E4%B8%80%E7%82%...
  • Tiffany_Li2015
  • Tiffany_Li2015
  • 2015年12月22日 20:41
  • 766

用VBA整理EXCEL数据

每个月初公司都会总结上个月的销售明细。店铺传过来的数据都会以下表的形式从销售系统中的报表导出Excel表。如果有缺失数据的,再由店铺传过来,由人工填补到表一里。数据补全后,需要以表二的数据整理一下再导...
  • cmzsteven
  • cmzsteven
  • 2015年10月11日 16:59
  • 744

抓取维基百科数据

1方案概述 抓取维基百科数据。 根据网上调查,现有三种解决方案: ²  使用Apache Nutch爬虫技术,深度抓取页面数据。 ²  使用JWPL技术,解析Wikipaia离线数据。 ² ...
  • npf_java
  • npf_java
  • 2015年12月06日 16:42
  • 3719

维基百科中国

今天搜索才知道,维基百科在中国通过正常渠道是访问不了。对于很多来中国用户来说,网络百科全书是学习知识的一个重要途径,目前全球公认的质量较高的网络百科全书是维基百科,不过目前因为种种原因,中国大陆无法直...
  • Intlgj
  • Intlgj
  • 2016年01月22日 11:00
  • 998

怎么做到ERP基础数据的整理

原文地址: 整理ERP基础数据的确很繁琐,这个过程并不比ERP上线轻松,但它并不难,只要坚持,就一定能够实现。ERP项目实施成功靠的是三分技术,七分管理,十二分数据。可见,ERP系统中基础数据整...
  • wangnan537
  • wangnan537
  • 2014年10月31日 14:32
  • 1637
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:维基百科数据整理感想
举报原因:
原因补充:

(最多只允许输入30个字)