记录向
bekote
这个作者很懒,什么都没留下…
展开
-
记录 || Python | 提取xml/tmx文件中的文本内容
# -*- coding:utf-8 -*-import codecsimport xml.etree.ElementTree as ETimport sysdefaultencoding = 'utf-8'if sys.getdefaultencoding() != defaultencoding: reload(sys) sys.setdefaultenco...原创 2019-03-30 16:05:13 · 5467 阅读 · 0 评论 -
记录向 | 爬虫 | 裁判文书爬取(java)
任务:爬取某地方法院的裁判文书,并将内容抽取出来保存在excel中爬虫小白,用最简单粗暴的方法爬虫,研究要爬虫的网页源代码结构,用正则表达式抽取出自己想要的内容我爬取的地方法院的裁判文书网址链接样式如下地方法院的网址:s_url= "http://xxxxx.xxxxxxxxxx.xxx"列举裁判文书具体链接的url:m_url = s_url + /paper/more/……...原创 2019-03-26 18:00:17 · 1362 阅读 · 0 评论 -
记录 || Python | 基于维基百科语料生成平行句对
语料获取句对生成所需语料:小语种语料(da)、汉语语料(zh)、对照标题文本(titles.txt)使用WikiDump下载相关语料https://dumps.wikimedia.org/**wiki/**:语料语言类型的639-1码,以下均以da为例*-pages-articles.xml.bz2使用WikiExtractor抽取出正文内容和标题 h...原创 2019-04-10 17:18:48 · 705 阅读 · 0 评论 -
记录 || ASP | eWebEditor使用时摔过的坑
使用 eWebEditor 后,现在是如下形式:<input type="hidden" name="content1" value=""><iframe ID="eWebEditor1" src="/ewebeditor.htm?id=content1&style=coolblue" frameborder="0" scrolling="no" width="...原创 2019-04-24 00:14:32 · 179 阅读 · 0 评论