- 博客(7)
- 资源 (27)
- 收藏
- 关注
原创 【Python编程】网页中文提取正则
由于 需求原因,需要匹配网页提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。 参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-
2014-02-26 12:03:17 4411
原创 【Python编程】网页URL提取实例
import urllib.requestimport redef ssubcatagory(urllink,j): fp = urllib.request.urlopen(urllink) filecontent = fp.read() content = str(filecontent) if(content.find("UTF-8",0,100
2014-02-25 18:29:43 1537
原创 【Python编程】读取网页内容并存储过滤
import urllib2import reurl = 'http://192.168.1.170:8000'content = urllib2.urlopen(url).read()file = open('results.txt','w')file.write(str(content))file.closepattern1 = re
2014-02-25 14:44:33 1878
原创 【文本分类】文本分类流程及算法原理
分类体系分类:给定一个对象,从一个事先定义好的分类体系中挑出一个或多个最适合该对象的类别。文本分类(TC, Text Categorization):在给定的分类体系下,根据文本内容自动的确定文本关联的类别。从数学角度看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一对一或一对多的映射。 f:A→B 其中,A表示待分类的文本集合,B表示分类
2014-02-23 18:33:23 19046
原创 vmware tools 实现主机与虚拟机共享文件
使用vmware(vmware workstation 5)下shared folders功能实现vmware中host与ghost间文件传输,无需任何网络相关设置,不使用任何网络协议,host和ghost可以是 linux和windows操作系统,这里只介绍host是windows,ghost是linux下的设置,如果ghost是windows,请参考 vmware帮助中setting up s
2014-02-16 19:21:44 1195
原创 【文本分类】friso中文分词器介绍(c 开源)
一、friso中文分词器Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】1。目前最高版本:friso 1.6.0,同时支持对UT
2014-02-12 17:16:37 4101
原创 【文本分类】中文分词开源软件介绍
链接:http://www.oschina.net/project/tag/264/segment 开源中国社区1、IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的
2014-02-12 16:42:25 4163
ImmunityDebugger_mona_vulnserver_python
2015-09-16
http2文档报文及分析
2015-04-16
OpenSSL_HeartBleed_POC_Pcap
2014-06-12
报文发送软件
2013-11-06
ftpfuzz(infigo ftpstress fuzzer)
2012-09-14
URL内容提取工具
2012-09-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人