- 博客(60)
- 资源 (9)
- 收藏
- 关注
转载 urllib2.HTTPError: HTTP Error 403: Forbidden 错误
出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问#伪装浏览器头headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Fire
2014-03-26 12:46:01 3344
转载 python import 包问题:TypeError: 'module' object is not callable
程序代码 class Person: #constructor def __init__(self,name,sex): self.Name = name self.Sex = sex def ToString(self): return 'Name:'+self.Name+',Sex:'+s
2014-03-19 15:23:45 3209
转载 Source Insight使用
考虑到阅读源程序的爱好者都有相当的软件使用水平,本文对于一些琐碎、人所共知的细节略过不提,仅介绍一些主要内容,以便大家能够很快熟练使用本软件,减少摸索的过程。安 装Source Insight并启动程序,可以进入图1界面。在工具条上有几个值得注意的地方,如图所示,图中内凹左边的是工程按钮,用于显示工程窗口的情况;右边的那 个按钮按下去将会显示一个窗口,里边提供光标所在的函数体内对其他函数的调用
2013-12-20 17:42:55 1083
转载 word2vec使用
【本文转自http://ir.dlut.edu.cn/NewsShow.aspx?ID=253,感谢原作者】word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言
2013-12-20 16:40:55 4244
转载 python中html解析 HTMLParser与sgmllib
python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。他们的实现方法不通,但功能差不多。这三个库中提供解析html的类都是基类,本身并不做具体的工作。他们在发现的元件后(如标签、注释、声名等),会调用相应的函数,这些函数必须重载,因为基类中不作处理。 比如:"""AdviceThe http://ietf.org">IETF admon
2013-12-06 13:59:56 1971
转载 python namedtuple
我们都知道Python中的tuple是一个非常高效的集合对象,但是我们只能通过索引的方式访问这个集合中的元素,比如下面的代码: Bob=('bob',30,'male')print'Representation:',BobJane=('Jane',29,'female')print'Field by index:',Jane[0]for people in[Bo
2013-11-19 16:57:36 1449
原创 Python yield 详解(二)
实验了几个小时的yield,附上一段代码:# encoding: utf-8from collections import defaultdict, namedtuple def dataFromFile(fname, sep='\t'): file_iter = open(fname, 'rU') for line in file_iter: line = line.strip
2013-11-15 20:41:25 1140
转载 Python yield详解
yield的英文单词意思是生产,刚接触Python的时候感到非常困惑,一直没弄明白yield的用法。只是粗略的知道yield可以用来为一个函数返回值塞数据,比如下面的例子:def addlist(alist): for i in alist: yield i + 1取出alist的每一项,然后把i + 1塞进去。然后通过调用取出每一项:ali
2013-11-15 20:37:36 2332
转载 python 字符串前加r
在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash '\' 。 例如,\n 在raw string中,是两个字符,\和n, 而不会转意为换行符。由于正则表达式和 \ 会有冲突,因此,当一个字符串使用了正则表达式后,最好在前面加上'r'。
2013-11-14 22:46:58 1170
转载 FP-tree
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:
2013-11-14 13:51:55 1208
转载 python中的argparse
Python代码 # -*- coding: utf-8 -*- import argparse args = "-f hello.txt -n 1 2 3 -x 100 -y b -z a -q hello @args.txt i_am_bar -h".split() # 使用@args.txt要求fromfile_prefix_chars=
2013-11-13 11:54:36 1368
转载 shell的一些杂七杂八的东西
time -p [程序] 可以在运行结束之后打印出所需时间...其他用法可以man timerpm -qa 查询redhat linux里面安装的所有软件...ubuntu下面可能不行,不过反正大型机下面又不是ubuntu.分页查看用rpm -qa|more 然后如果想sort一下并且保存的话就 rpm -qa|sort >softwarelist.txt, 查看xxx软件装没装就用 rpm
2013-09-03 16:06:36 1231
转载 Vim里面显示TAB键
Vim里面显示TAB键 1、文件中有 TAB 键的时候,你是看不见的。要把它显示出来: C代码 :set list 现在 TAB 键显示为 ^I,而 $显示在每行的结尾,以便你能找到可能会被你忽略的空白 字符在哪里。 2、方法1中这样做的一个缺点是在有很多 TAB 的时候看起来很丑。如果你使用一个有颜色的 终端,或者使用
2013-07-29 11:22:12 1015
转载 linux 软连接与硬链接
1.Linux链接概念Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link)。默认情况下,ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)。在Linux中,多个文件名指向同一索引节点是存在的
2013-06-18 11:27:02 861
转载 apache+php+mysql-5.0.45-linux-i686-glibc23.tar.gz安装
由一删除apache+php+mysql:判断是不是rpm安装如:rpm -q php 返回php版本,则是rpm安装,用 rpm -e php --nodeps 即可彻底删除系统自带的php如果不返回PHP版本则是二进制安装,直接删除目录就可以!同理apache mysql也一样!二安装apache下载httpd-2.2.4.tar.gztar xzvf ht
2013-06-13 10:38:38 1606
转载 Linux磁盘空间不足之inode
# crontab -e 编辑好之后保存 crontab: installing new crontab cron/tmp.xxx1222: No space left on device crontab: edits left in /tmp/crontab.xxx1222 报错是表示磁盘满了 # df -hl 文件系统 容量 已用 可
2013-06-13 10:15:04 1284
转载 C结构体之位域(位段)
有些信息在存储时,并不需要占用一个完整的字节, 而只需占几个或一个二进制位。例如在存放一个开关量时,只有0和1 两种状态, 用一位二进位即可。为了节省存储空间,并使处理简便,C语言又提供了一种数据结构,称为“位域”或“位段”。所谓“位域”是把一个字节中的二进位划分为几个不同的区域, 并说明每个区域的位数。每个域有一个域名,允许在程序中按域名进行操作。 这样就可以把几个不同的对象用一个字节的二进制位
2013-06-03 18:42:51 933
转载 C语言结构体对齐问题详解
测试环境32位机 WinXP:编译器VC6(MS cl.exe ) 和 mingw32-gcc-4.5.2 1 结构体数据对齐(没有#pragma pack()宏定义)结构体对齐可以总结为三个基本原则①数据成员对齐规则:结构体的数据成员中,第一个成员从offset为0的地址开始,以后每一个成员存储的起始位置为该成员大小的整数倍(在win32中int为
2013-06-03 18:42:15 1051
转载 全局变量报错:UnboundLocalError: local variable 'l' referenced before assignment
在程序中设置的sum属于全局变量,而在函数中没有sum的定义,根据python访问局部变量和全局变量的规则:当搜索一个变量的时候,python先从局部作用域开始搜索,如果在局部作用域没有找到那个变量,那样python就在全局变量中找这个变量,如果找不到抛出异常(NAMEERROR或者Unbound-LocalError,这取决于python版本。)如果内部函数有引用外部函数的同名变量或者全局变
2013-05-30 15:25:21 3471 1
转载 系统分析师考试备考方案
根据本人考系统分析师过程,写了一点关于考试的感受,希望对大家有所帮助。本文主要分为三个部分:考试简介、报名流程、备考漫谈。第一部分,考试简介部分先在链接中引入了系统分析师考试大纲;其次推荐了几本我认为比较重要的备考书籍;最后我介绍了几个拓展知识点比较好的网站。第二部分,在报名流程中讲了广州报名的流程和注意事项,仅仅适合在广州报名的同行,对于其他地方的朋友,可以跳过第二章。第
2013-03-27 17:31:13 2019
转载 python urllib
urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。每当使用这个模块的时候,老是会想起公司产品的客户端,同事用C++下载Web上的图片,那种“痛苦”的表情。我以前翻译过libcurl教程,这是在C/C++环境下比较方便实用的网络操作库,相比起libcurl,Python的urllib模块的使用门槛则低多了。可能有些人又会用效率来批评Python,其实在操作网络,
2013-03-18 13:29:11 3190
转载 数据类型 --uint32_t / uint64_t
转载自:http://blog.sina.com.cn/s/blog_6aea878e0100tl0f.html体会[2006-10-25]:1>. 在写程序时注意"无符号类型"的使用, 各种类型边界值的情况. 如: a> 当某个数据不可能为负数时我们一定要考虑用以下类型: unsigned char, unsigned int, uint32_t, s
2013-01-26 12:15:37 1074
转载 关于uint32_t uint8_t uint64_t 的问题
怎么又是u又是_t的?u代表的是unsigned相信大家都知道,那么_t又是什么呢?我认为它就是一个结构的标注,可以理解为type/typedef的缩写,表示它是通过typedef定义的,而不是其它数据类型。uint8_t,uint16_t,uint32_t等都不是什么新的数据类型,它们只是使用typedef给类型起的别名。不过,不要小看了typedef,它对于你代码的维护会有很好的作用。
2012-12-27 17:40:03 4238
原创 hash_map中string为key的解决方法
当hash_map中使用string为key时,需用户扩展命名空间,否则报错如下:/usr/lib/gcc/x86_64-redhat-linux/3.4.5/../../../../include/c++/3.4.5/ext/hashtable.h:518: error: no match for call to `(const __gnu_cxx::hash) (const std::ba
2012-12-13 14:43:23 9956
转载 hash_map 详解
为什么需要hash_map 用过map吧?map提供一个很常用的功能,那就是提供key-value的存储和查找功能。例如,我要记录一个人名和相应的存储,而且随时增加,要快速查找和修改: 岳不群-华山派掌门人,人称君子剑 张三丰-武当掌门人,太极拳创始人 东方不败-第一高手,葵花宝典 ... 这些信息如果保存下来并不复杂,但是找起来比较麻烦。例如我要找"张三丰"的
2012-12-12 17:11:45 1433
转载 Makefile之wildcard
1、wildcard : 扩展通配符2、notdir : 去除路径3、patsubst :替换通配符例子:建立一个测试目录,在测试目录下建立一个名为sub的子目录$ mkdir test$ cd test$ mkdir sub在test下,建立a.c和b.c2个文件,在sub目录下,建立sa.c和sb.c2 个文件建立一个简单的Makefiles
2012-12-06 11:42:14 842
转载 crontab中运行python程序出错,提示ImportError: No module named解决全过程
将一个python脚本放入crontab执行时,提示如下错:ImportError: No module named hashlib但是在shell中直接执行时没有任何问题,google之后,得到线索是PYTHONPATH的问题,PYTHONPATH会决定python查找lib的路径。在服务器上面echo $PYTHONPATH的时候没有任何路径继续调查发现最终影响的是sys.pa
2012-12-05 11:10:52 6591
原创 php程序如何让局域网内其他计算机访问?
本机可以浏览localhost而局域网内其它机器无法浏览时,有2种途径修正:1、由于WinXP系统默认是开启防火墙的,正是由于它挡住了网内其它机器对你机器80端口的访问(尽管你安装了Apache并且启用了80端口),所以要解决问题就要关闭防火墙,点开始->设置->控制面板->安全中心->防火墙,把常规选项卡下“启用防火墙”改为“关闭防火墙”。2、倘若你为了免受局域网某些中毒机器的攻
2012-11-28 11:41:12 4366
转载 无法import的原因(ImportError: No module named *****)
python中,每个py文件被称之为模块,每个具有__init__.py文件的目录被称为包。只要模块或者包所在的目录在sys.path中,就可以使用import 模块或import 包来使用。 如果想使用非当前模块中的代码,需要使用Import,这个大家都知道。如果你要使用的模块(py文件)和当前模块在同一目录,只要import相应的文件名就好,比如在a.py中使用b.py
2012-11-24 17:50:00 10229
转载 LINUX jobs详解
在用管理员执行一个命令后,用Ctrl+Z把命令转移到了后台。导致无法退出root的。输入命令:exit终端显示:There are stopped jobs.解决方法:方法一、输入命令:jobs终端显示:[1]+ Stopped vim /etc/network/interfaces > /home/leo/Desktop/ip.txt (wd: /)KIL
2012-11-22 14:45:35 1243
原创 ”我以为“签到-20121114
报到。我以为我起来的很早,却看到隔壁那个住在没窗隔断屋里的女孩已经出门了。所以,真的是“我以为”很早。“我以为”害了多少人-这个好难,其实是”我以为好难“;这个我做不了,其实是”我以为做不了”;这个很容易,其实是"我以为很容易“;我是为你好,其实是”我以为是为你好”……太多太多这样的”我以为“让想迈开的步伐收了回来,让我们面对通往真理的荆棘小路时犹豫胆怯。人的思维使人成为高级动物,而恰恰很多时候,
2012-11-14 06:56:07 764
转载 awk正则匹配
扩展的正则表达式(Extended Regular Expression 又叫 ExtendedRegEx 简称 EREs)。 一、awk Extended Regular Expression (ERES)基础表达式符号介绍+指定如果一个或多个字符或扩展正则表达式的具体值(在 +(加号)前)在这个字符串中,则字符串匹配。命令行:awk '/smith+ern/'testfile将
2012-11-12 14:24:04 11221
转载 linux chmod 参数解析
使用方式 : chmod [-cfvR] [--help] [--version] modefile...说明 : Linux/Unix 的档案存取权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人所存取。把计 :mode : 权限设定字串,格式如下 : [ugoa...][[+-=][rwxX]...][,...],其中u 表示该档案的
2012-08-31 13:16:16 721
转载 python 中文编码问题
在用Python 做一应用时,需要将预处理时需要统一编码, 在将utf8转换为gb2312 时报错: 错误原因:'gb2312' codec can't encode characteru'\xb7' in position 8061: illegal multibyte sequence 搜索后发现gb2312对一些很生僻的中文字并不支持,比如 “囧” “苶”然后自己写了几行代
2012-08-30 16:07:38 1076
原创 python中文乱码问题
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编
2012-08-30 15:14:42 1665 1
转载 向量内积
向量内积定义: 设有n维向量 向量内积(1张) 向量α与β的内积,内积(inner product),又称数量积(scalar product)、点积(dot product) 他是一种矢量运算,但其结果为某一数值,并非向量。 设矢量A=[a1,a2,...an],B=[b1,b2...bn] 则矢量A和B的内积表示为: A·B=a1×b1+a2×b2+……+an×bn
2012-08-30 14:15:57 1618
转载 Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
s.strip() .lstrip() .rstrip(',') 去空格及特殊符号复制字符串Python1#strcpy(sStr1,sStr2)2sStr1 ='strcpy'3sStr2 =sStr14sStr1 ='str
2012-08-29 17:47:59 776
转载 linux下tar.gz、tar、bz2、zip等解压缩、压缩命令小结
Linux下最常用的打包程序就是tar了,使用tar程序打出来的包我们常称为tar包,tar包文件的命令通常都是以.tar结尾的。生成tar包后,就可以用其它的程序来进行压缩了,所以首先就来讲讲tar命令的基本用法: tar命令的选项有很多(用man tar可以查看到),但常用的就那么几个选项,下面 来举例说明一下: # tar -cf all.tar *.jpg
2012-08-29 17:13:20 843
转载 电脑双屏显示
双屏显示的原始需求一台电脑配一个显示器应该是最常见的搭配,我们日常的工作、娱乐基本上都是这样的搭配。但是这种用法,当您打开多个窗口的时候,一个显示器就显得很拥挤,尤其是做一些复杂工作,比如分析图表、调试程序时,你往往需要不断地在不同窗口之间来回切换,非常麻烦,有没有方法让这些事情变的简单一些呢?有!答案是:Windows的双屏显示功能(或多屏显示,windows最多可以支持10个显示器同时
2012-08-28 14:05:36 2574
excel批量转换成txt文件的转换工具 python 实现
2015-08-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人