2016年08月_一个人的场域

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载关于协程的初步理解

参考 http://blog.csdn.net/gzlaiyonghao/article/details/5397038协程，又称微线程和纤程等，据说源于 Simula 和 Modula-2 语言（我没有深究，有错请指正），现代编程语言基本上都有支持，比如 Lua、ruby 和最新的 Google Go，当然也还有最近很让我惊艳的 falcon。协程是用户空间线程，操作系统其存在一无所知，

2016-08-31 14:00:58 362

原创 requests 的BadStatusLine问题及tornado.web.RequestHandler部分接口

BadStatusLine 错误使用request的get时出现BadStatusLine错误，初步确定是因为参数过长引起的；但是换了post以后还是出错。曲折的最终发现是因为使用post的参数params是给url中指定参数使用的，要将参数放到body中，post需要使用参数data指定。response = resquests.post(url, data = dat

2016-08-25 11:36:44 1759

转载 python 的编码与解码

字符串编码常用类型：utf-8,gb2312,cp936,gbk等。python中，我们使用decode()和encode()来进行解码和编码在python中，使用unicode类型作为编码的基础类型。即 decode encodestr ---------> unicode --------->stru = u'中文' #

2016-08-23 18:54:12 710

转载 csr_matrix参数解析

压缩稀疏矩阵构造时的参数从官网看不明白，参考如下：>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices, indptr), shap

2016-08-18 14:23:49 3152

转载文本特征选择之互信息和卡方

在做文本挖掘，特别是有监督的学习时，常常需要从文本中提取特征，提取出对学习有价值的分类，而不是把所有的词都用上，因此一些词对分类的作用不大，比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法：互信息　　一个常用的方法是计算文档中的词项t与文档类别c的互信息MI，MI度量的是词的存在与否给类别c带来的信息量，互信息的基本定义如下：　　应用到文本特征选择:

2016-08-17 17:48:08 13420 2

转载 python 判断字符串

python中提供许多的内建函数，而这些函数可以方便的对字符串容的判断，下面主要讲解以下的判断，既然是判断那么结果肯定返回的是bool值；x为一个字符串x.isalnum() #判断是否是数字或者是字母x.isalpha() #判断字符串第一个是否是字母x.isdigit() #判断字符是否是数字组成x.islower() #判断字符中是否是小写字母（字符串中可以包含数字，返回为tru

2016-08-16 18:13:25 1052

原创 postgre 执行execute参数为元组

sql = "select title,content,nid from newslist_v2 where nid in (%s)"conn, cursor = get_postgredb()cursor.execute(sql, [ads_str])报错： psycopg2.DataError: invalid input syntax for integer: .......

2016-08-16 10:57:32 2677

转载 sql语句中条件查询in、like、=的效率

1、如果条件字段都是非索引字段,那么效率都差不多,就看结果大小。2、有差别的在于条件字段是索引字段时: “=”在索引的情况下都会进行索引扫描,所以效率总是高的。 “like”当模糊查询为右模糊,比如'abc%'时,扫描索引,高效。当模糊查询含左模糊时,比如'%abc',进行全表扫描,低效。 “in”的作用等同于or,也是进行索引扫描,高效。

2016-08-16 09:57:34 14520

原创 tf-idf, CHI, TextRank

CHI、TFIDF既可以作为特征选取也可以作为权重计算的方法。不同之处在于TFIDF可以用于任意文本集合，而CHI则需要文本有分类标签的标记才能计算。TextRank最初是作为关键词抽取方法提出来的，后来也有人尝试作为权重计算方法，但需要注意的是TextRank的计算复杂度很高（后续再补充）

2016-08-12 15:08:36 1877 1

转载 livsvm文本分类总结

参考 http://www.lai18.com/content/1594216.html1（1）使用CHI挑选文本类的特征词汇。->（2）使用TFIDF计算相对于某一文本，步骤1中得出的每个特征词汇的tfidf值，从而得出每一个文本的特征向量。->（3）使用libsvm进行分类。2，使用CHI挑选特征参考文章：http://blog.csdn.net/wangran51/articl

2016-08-12 15:05:44 854

转载 python 文件操作

python中对文件、文件夹（文件操作函数）的操作需要涉及到os模块和shutil模块。得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录：os.removedirs（r“c：\python”）检验给出的路径是否是一

2016-08-09 18:32:07 332

转载 1208个中文停用词

,?、。“”《》！，：；？人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然

2016-08-08 18:02:15 1182

转载文本分类特征选取之CHI开方检验

http://blog.csdn.net/wangran51/article/details/8446234除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。开方检验最基本的思想就是通过观察实际值与理论值的偏

2016-08-08 16:41:43 489

原创 linux netstat

简介Netstat 命令用于显示各种网络相关信息，如网络连接，路由表，接口状态 (Interface Statistics)，masquerade 连接，多播成员 (Multicast Memberships) 等等。输出信息含义执行netstat后，其输出结果为Active Internet connections(w/oservers)

2016-08-07 23:22:08 266 5

转载 TF-IDF简易说明

百度新闻之类的系统，它从互联网上收集文章，然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊，那怎样让计算机读懂文章的内容并做出合适的分类呢？大家都学过余弦定理吧，自动归类的算法有赖于余弦定理。最简单的计算文章向量的方法是给定一个词表（如64000常用词），再计算文章中每个词的权重。权重算法下面再介绍。所以，只要能够用一个向量来代表文章，然后计算它与分类

2016-08-05 12:10:23 406

Lindo API 可以建立求最佳解的应用程序。Lindo API 允许你将强大的线性、整数或非线性求解引擎挂入你已写好的应用程序中。 Lindo API可以使你容易地将最佳化的功能整合到你自己开发的应用程序中。 Lindo API 附有完整的文件和范例帮助您迅速上手。 Lindo API 提供的强大求解引擎包括针对线性、非线性(convex和nonconvex)，二次和整数的最佳化。 Lindo API 提供了你需要的弹性和功能，不管你的应用程序是大或小，简单或复杂。它包含了数十个程序(routine)来公式化、求解、查询和修改你的问题。 Lindo API 提供的所有工具和文件可使你迅速入门和上手。 Lindo API 使用者手册有详细的功能定义。 Lindo API 内含工具可以找出导致模型无合理解或无边际模型的原因。 Lindo API 允许你建立因特网和企业内部网络的应用程序可同时供多人使用。

2012-08-16

LINDO 7.0 API

2012-08-16

LINDO API 7.0

2012-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人