- 博客(135)
- 资源 (12)
- 收藏
- 关注
原创 从CRF测试结果中提取出连续的标注行
现在在处理一批CRF标注的语料,需要将测试结果中标为B、I的行提取出来,对于连续的B、I标注行,要在一起抽出。如有以下测试语料标注结果(片断): a a1 a2 O b b1 b2 B c c1 c2 I d d1 d2 I e e1 e2 O f f1 f2 B 从中将b、c两行合在一起抽出,f行要单独抽取,目标结果格式如下: [[[
2015-07-15 22:25:02 1437
原创 Python将一个大文件按段落分隔为多个小文件的简单方法
今天帮同学处理一点语料。语料文件有点大,并且是以连续两个换行符作为段落标志,他想把它按段落分隔成多个小文件,即每3个段落组成一个新文件。由于以前没有遇到过类似的操作,在网上找了一些相似的方法,看起来都有点复杂。所以经尝试,自己写了一段代码,完美解决问题。 基本思路是,由先读原文件内容,并使用正则表达式,依据\n\n进行切片处理,结果为一个列表,其中每一个列表元素都存放一个切片中的内容;然后创建一个
2015-07-08 00:40:20 8342
原创 Python中可避免读写乱码的一个强大方法
昨天在帮同学解析一批从网络上爬取的文件时,遇到一个奇葩的问题,文件本身的编码是gbk,Eclipse编辑环境的默认编码是utf8,使用常规的open方法批量打开文件时,某些文件中存在一些不可被gbk识别的特殊字符导致读取错误,而这些特殊字符又是存在于utf8编码中的。经不断尝试,发现一个很好的解决办法:使用Python自带的codecs。codecs就是为编码转码而生的,关于此功能的更多详情请移步
2015-06-30 13:37:11 4812
原创 将Stanford CoreNLP的解析结果构造为json格式
首次处理英文语料,需要进行一些基础的NLP处理,首选工具当然是Stanford CoreNLP。由于Stanford CoreNLP官方示例的解析结果不宜直接使用,所以我在它的基础上进行修改,最终将解析结果转为json格式,并依照哈工大ltp的解析结果的格式,将依存句法的解析结果也添加到json中。1、Stanford CoreNLP的安装最新版的Stanford CoreNLP仅支持jd
2015-05-25 14:19:57 4001
原创 利用EXCEL自动统计实验结果的准确率
我们在做的实验的时候,通常都需要计算实验结果的准确率。当时数据量较大时,依靠人工来计算是不现实的,不仅十分慢而极易出错。如果我们事先将实验结果文件进行合理的格式化,则可以利用EXCEL自动进行统计,不仅效率高,也不担心出错了。简单地,利用EXCEL中的自动筛选或分类汇总功能也可实现一些统计,但是当数据量特别大时,分类汇总很卡,易导致崩溃;而自动筛选则需要不停地滚来滚去或不断地切换表,也十分不方便。
2015-05-19 02:35:47 9991
原创 哈工大自然语言处理工具pyltp的本地安装方法
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,
2015-04-27 19:00:16 25518 7
原创 HBuilder 配置Python、PHP开发环境
HBuilder是一个神器,不仅可以用于HTML页面的制作,通过安装各种扩展插件,还可实现多种语言编程。
2015-01-20 17:07:51 13666
原创 jquery 实现简单tab选项卡效果
常用简洁Tab<!--ul{ list-style:none;}.Tab1{width:100%;margin:0px;padding:0px;border:1px solid #666666;}.Menubox {width:100%;height:30px;line-height:28px;margin-bottom:5px;}.Menubox ul{mar
2015-01-16 19:27:45 1161
原创 简洁好用的jquery 焦点图插件:Basic jQuery Slider
简洁好用的jquery 焦点图插件:Basic jQuery Slider
2015-01-10 20:29:12 1716
转载 键盘上特殊符号的中英文名称
` backquote 反引号 grave accent 重音符号 ~ tilde 波浪号 ! exclamation(abbr. exclam) 感叹号 @ at 地址号 # number sign, sharp 数字符号,井号 $ dollar 美元 % percent 百分号 ^ caret 插入号 & ampersand 相当于and
2014-12-29 21:29:32 4095
原创 jquery 在$(function(){})中调用外部函数
$(function () { jinggao('ccnu'); }) function jinggao(temp) { alert(temp); }
2014-12-29 00:35:56 5508
原创 js jquery 子窗口获取父窗口元素值
父窗口有一个input,和一个button ,在button上利用window.open方法打开子窗口:子窗口获取父窗口指定元素值的代码:curproject=element = window.opener.document.getElementById("currentProjectIDForDetail").value;另外,在百度上搜到很多内容几乎一样的、介绍利用jqu
2014-12-29 00:01:49 2652
原创 jquery 读取页面表格中的数据 生成批量insert代码 并以ajax方式传给后台
jquery 读取页面表格中的数据 生成批量insert代码 并以ajax方式传给后台
2014-12-28 23:52:45 1771
原创 php-excel-reader-2.21 读取excel文件的基本用法
php-excel-reader-2.21 读取excel文件的基本用法
2014-12-28 23:30:11 2379
原创 原理与示例:php+mysql+jquery 生成静态网页(含后台编辑功能)
原理与示例:php+mysql+jquery 生成静态网页(含后台编辑功能)
2014-12-23 22:13:19 3103
原创 python 判断一个正整数是否循环素数
import stringimport math#判断是否素数的函数def isPrime(n): if(n<2): return False; elif(n==2): return True; elif(n>2): for d in range(2,int(math.ceil(math.sqrt(n))+1)):
2014-12-21 22:02:18 3292
原创 Python3 模拟MapReduce处理分析大数据文件——《Python宝典》
最近买了一本《Python宝典》在看,此书所讲Python知识的广度明显,但是深度略显不足,所以比较适合入门及提高级的读者来看。其中对于Python大数据处理一章的内容比较有兴趣,看明白了以后,我根据书上提供的案例对源代码进行了修改,也实现了模拟MapReduce的过程。目标:从Apache的用户访问日志access.log中统计出页面资源的访问量。我们假设这个文件体积十分巨大。acc
2014-12-19 10:50:40 3493
原创 jquery 获取并解析哈工大ltp-cloud返回的json数据
ltp-cloud是一款功能强大的基于云服务平台的中文处理工具,该服务调用简单,返回结果格式多样,这里以jquery+json为例来说明。官方在github也提供了一份简单的使用示例,但是它只是获取了json格式的字符串,并没有对json数据进行解析。本文弥补了这一不足。具体代码如下:注:本例以获取词性标注为例,您可以根据自己的需要调整调用ltp的url,相应地success方法中的解析代码也
2014-12-01 02:36:49 1631
原创 php 获取并解析哈工大ltp-cloud返回的json数据
<?php if(isset($_POST['submit'])==false) {?> <?php } else{ $mytext=$_POST['userText']; $url="http://ltpapi.voicecloud.cn/analysis/?api_key=yourapi_key &text=".$mytext."
2014-12-01 01:18:28 1714
原创 python 不借助第三方包实现xml转json
xml转json?猛一听是不是挺蛋疼的,都是结构化数据的格式有这转换的必要么?是的,其实我也觉得无聊,不过手痒痒,总想来试试。网上也能找到一款名为xmltodict的转换工具,也挺好用的。我的方法如下,原理很简单,代码也很短。
2014-11-22 19:48:15 6905
原创 Python 产生特定范围内不重复多个随机数的两种方法
首先想到的递归的方法,然后才发现Python中居然已经提供了此方法的函数,可以直接使用。
2014-11-18 14:57:58 66102 2
原创 pyhton 从web获取json数据 保存到本地然后再读取
从web中获取json数据直接进行处理总觉得太慢,主要是从web中获取获取数据的过程有点慢。所以就在想 如果先利用空闲时间把json数据获取并保存到本地,然后再从本地文件中读取和操作,应该就要快很多。这中间的主要问题就是格式的转换问题:1、将获取取的json数据序列化后保存到本地文件中;2、从文件中逐行读取数据,再将其反序列化为json格式。
2014-11-11 16:03:26 10103
原创 python json 序列化反序列化 和 中文编码问题
在一个项目中,需要从云端获取一个json格式的数据,并保存到本地文件中,然后再读取出来,这中间要用到json的dumps方法和loads方法,以实现数据的序列化和反序列化。具体来说,dumps方法,可将json格式数据序列为python的相关的数据类型,通常用于打印等;loads方法则是相反,把python数据类型转换为json相应的数据类型格式要求,反序列化后可以对json数据进行各种操作。在编程过程还发现一个问题,在序列化时,中文汉字总是被转换为unicode码,在网上搜索后发现,在dumps函数中添加
2014-11-10 22:26:58 5869
原创 jquery css 主菜单样式的跳转
想要实现的效果其实是挺常见的那种:网页的主菜单一开始有一种默认的样式(如A样式),当鼠标经过某一菜单项时,此菜单项会套用一种样式(如B样式),当鼠标点击某一菜单项时,当前菜单项会套用B样式,其余菜单项会去掉B样式而套用默认的A样式。经过尝试,写出了比较简单的代码,存下来,以备后用。html代码: Home Download
2014-10-21 21:20:40 1219 1
原创 Python2.x 利用urllib.quote实现url地址编码解码
#!/usr/bin/pythonimport urllibimport sysstring = sys.argv[1]string = unicode(string,"gbk")utf8_string = string.encode("utf-8")gbk_string=string.encode("gbk")gbk=urllib.quote(gbk_string)utf8=ur
2014-07-16 20:02:08 5897
原创 python3.2.5 + mysql-connector-python-1.2.2-py3.2 连接mysql基本用法
今天又发现另一个python连接mysql的工具,
2014-07-08 00:58:15 2327 1
转载 python urlopen 网址中有中文时报错的解决办法
用urllib.request.urlopen()打开带有中文的网址时会报错.在网上查了半天没有找到好的解决方法,功夫不负有心人,终于让找到了解决这个问题的方法.先用urllib.parse.quote()对链接中的中文进行处理import urllib.request;import urllib.parse;url = "http://www.ba
2014-07-05 15:32:55 5211 1
原创 python3.2.5 + PyMySQL3 0.5 基本使用方法
在网上看到不少文章都选用mysqldb作为python连接mysql数据库的工具,但是mysqldb目前支撑的版本较低,安装失败。所以才尝试pymysql,这个比较简单易用
2014-07-05 01:14:31 6376
原创 matplotlib 几种常见2d图
import numpy as np;import math;from matplotlib import *;import matplotlib.pyplot as pltx=np.arange(1,10,1);y=np.sin(x);plt.subplot(321);plt.scatter(x,y,marker='*'); #散点图plt.grid(True);plt.
2014-05-13 00:29:59 3069
原创 matplotlib 3d 散点图
from matplotlib import pyplot as plt;from mpl_toolkits.mplot3d import Axes3D from matplotlib import cm import numpy as npx=np.arange(1,6,0.1)y=np.cos(x)z=np.sin(x*x)fig = plt.figure() cm =
2014-05-12 23:17:13 2379
原创 基于KNN算法的约会网站配对效果 python3.2
续前文 Python3.2 实现基于KNN算法的数据分类。今天看完了《机器学习实战》中关于KNN算法的一个完整案例,将所有代码加了注释,并利用tkinter 将其改造为GUI式的交互界面。(文中没有直接作用的方法我已经注释)
2014-05-12 18:51:08 1589 3
转载 apache 虚拟目录设置
找到"conf/httpd.conf" 文件,在节点:里增加:Alias /myphp "D:/phpStudy/WWW/myphp" Options Indexes MultiViews AllowOverride None Order allow,deny Allow from all
2014-05-12 18:48:28 744
原创 Python3.2 实现基于KNN算法的数据分类
1 前言这几天在看《机器学习实战》一书,买这本书的最首要原因是它里面采用Python来实现,而我这段时间对Python的好感越来越强烈。拿到手后一看,果然很不错,书中对一些经典机器学习算法的解释与实现 阐述的都很通俗。今天把KNN算法看懂了,在些基础上用Python进行了实现,代码主要还是基于书中的示例,我在看明白后,加上了注释。2 KNN算法的基本原理KNN属于监督学习,要求事先
2014-05-12 18:46:28 1708
原创 PHP jQuery ajax 表单提交小示例(含insert, select)
功能描述:能够通过表单向MySQL数据库新增记录,能够表单提供关键词进行查询index.html[html] view plaincopyprint?> html xmlns="http://www.w3.org/1999/xhtml"> head> meta http-equiv="Content-Type" content="text/html; char
2014-05-12 18:43:32 2120
转载 Excel 小写金额转大写
要显示大写的单元格中填入以下内容:(所有的C20应替换为实际的小写金额所在单元格)=IF(ISERROR(FIND(".",C20)),NUMBERSTRING(INT(C20),2)&"元整",IF(ISERROR(NUMBERSTRING(MID(C20,FIND(".",C20)+2,1),2)),NUMBERSTRING(INT(C20),2)&"元"&NUMBERSTRING(M
2014-05-12 18:37:22 956
php+mysql+jquery 生成静态网页(含后台编辑功能)
2014-12-23
腾讯UIDesigner1.0 for pc
2014-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人