- 博客(15)
- 资源 (3)
- 收藏
- 关注
转载 关于协程的初步理解
参考 http://blog.csdn.net/gzlaiyonghao/article/details/5397038协程,又称微线程和纤程等,据说源于 Simula 和 Modula-2 语言(我没有深究,有错请指正),现代编程语言基本上都有支持,比如 Lua、ruby 和最新的 Google Go,当然也还有最近很让我惊艳的 falcon。协程是用户空间线程,操作系统其存在一无所知,
2016-08-31 14:00:58 362
原创 requests 的BadStatusLine问题及tornado.web.RequestHandler部分接口
BadStatusLine 错误 使用request的get时出现BadStatusLine错误,初步确定是因为参数过长引起的;但是换了post以后还是出错。 曲折的最终发现是因为使用post的参数params是给url中指定参数使用的,要将参数放到body中,post需要使用参数data指定。response = resquests.post(url, data = dat
2016-08-25 11:36:44 1759
转载 python 的编码与解码
字符串编码常用类型:utf-8,gb2312,cp936,gbk等。python中,我们使用decode()和encode()来进行解码和编码在python中,使用unicode类型作为编码的基础类型。即 decode encodestr ---------> unicode --------->stru = u'中文' #
2016-08-23 18:54:12 710
转载 csr_matrix参数解析
压缩稀疏矩阵构造时的参数从官网看不明白,参考如下:>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices, indptr), shap
2016-08-18 14:23:49 3152
转载 文本特征选择之互信息和卡方
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择:
2016-08-17 17:48:08 13420 2
转载 python 判断字符串
python中提供许多的内建函数,而这些函数可以方便的对字符串容的判断,下面主要讲解以下的判断,既然是判断那么结果肯定返回的是bool值;x为一个字符串x.isalnum() #判断是否是数字或者是字母x.isalpha() #判断字符串第一个是否是字母x.isdigit() #判断字符是否是数字组成x.islower() #判断字符中是否是小写字母(字符串中可以包含数字,返回为tru
2016-08-16 18:13:25 1052
原创 postgre 执行execute参数为元组
sql = "select title,content,nid from newslist_v2 where nid in (%s)"conn, cursor = get_postgredb()cursor.execute(sql, [ads_str])报错: psycopg2.DataError: invalid input syntax for integer: .......
2016-08-16 10:57:32 2677
转载 sql语句中条件查询in、like、=的效率
1、如果条件字段都是非索引字段,那么效率都差不多,就看结果大小。2、有差别的在于条件字段是索引字段时: “=”在索引的情况下都会进行索引扫描,所以效率总是高的。 “like”当模糊查询为右模糊,比如'abc%'时,扫描索引,高效。当模糊查询含左模糊时,比如'%abc',进行全表扫描,低效。 “in”的作用等同于or,也是进行索引扫描,高效。
2016-08-16 09:57:34 14520
原创 tf-idf, CHI, TextRank
CHI、TFIDF既可以作为特征选取也可以作为权重计算的方法。不同之处在于TFIDF可以用于任意文本集合,而CHI则需要文本有分类标签的标记才能计算。TextRank最初是作为关键词抽取方法提出来的,后来也有人尝试作为权重计算方法,但需要注意的是TextRank的计算复杂度很高(后续再补充)
2016-08-12 15:08:36 1877 1
转载 livsvm文本分类总结
参考 http://www.lai18.com/content/1594216.html1(1)使用CHI挑选文本类的特征词汇。->(2)使用TFIDF计算相对于某一文本,步骤1中得出的每个特征词汇的tfidf值,从而得出每一个文本的特征向量。->(3)使用libsvm进行分类。2,使用CHI挑选特征 参考文章:http://blog.csdn.net/wangran51/articl
2016-08-12 15:05:44 854
转载 python 文件操作
python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出的路径是否是一
2016-08-09 18:32:07 332
转载 1208个中文停用词
,?、。“”《》!,:;?人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然
2016-08-08 18:02:15 1182
转载 文本分类 特征选取之CHI开方检验
http://blog.csdn.net/wangran51/article/details/8446234除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。开方检验最基本的思想就是通过观察实际值与理论值的偏
2016-08-08 16:41:43 489
原创 linux netstat
简介Netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。输出信息含义执行netstat后,其输出结果为Active Internet connections(w/oservers)
2016-08-07 23:22:08 266 5
转载 TF-IDF简易说明
百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。所以,只要能够用一个向量来代表文章,然后计算它与分类
2016-08-05 12:10:23 406
LINDO 7.0 API
2012-08-16
LINDO 7.0 API
2012-08-16
LINDO API 7.0
2012-08-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人