Python
文章平均质量分 60
Snipergzf
这个作者很懒,什么都没留下…
展开
-
python2x的str/unicode转换以及python3x中的str/bytes转换
Python2x中的str/unicode转换写在开头 为什么哪里都会出现编码问题,而编码问题总是那么难搞懂?我想在读这篇博客前大家都应该深刻地了解下为什么会出现所谓的编码问题?字符的十六进制表达 首先,我们在ULtraEdit中做个试验 图一:我们先用记事本保存了“中文”二字,然后以ANSI编码格式保存后用ULtraEdit打开,再转成十六进制编辑环境后就可以看到“中文”二字用A原创 2016-03-07 17:45:31 · 6943 阅读 · 2 评论 -
python 多线程与多进程的简单测试比较
想必对接触过python的朋友都知道,python的多线程由于历史原因有一个GIL,并不是真正的多线程。所以查了些许资料亲自跑了下程序比较了下。 测试环境 macbook pro, 双核四线程,i5处理器。 比较对象 单线程 多线程 多进程 执行的任务都是耗cpu型的任务 单线程# thread_test.pyimport random import threading def li原创 2016-08-16 23:46:05 · 1664 阅读 · 0 评论 -
论windows装gensim的艰辛历程
由于windows没有包管理器,所以既不能yum,也不能brew,所以新手装个gensim是如此的艰辛,此处省去一万字。。。。。。 写一篇记叙文记录一下windows下,如何绕过千坑,快速安装gensim及依赖库的过程。安装环境操作系统:win 7 64位,python版本:2.7.6主要需要安装的东西Numpy+mkl Scipy gensim安装过程附上神奇的网站一个:http://www原创 2016-09-28 14:48:39 · 1141 阅读 · 0 评论 -
python 读取大文件
以前一直没有关注过python读取大文件的问题,因为一直都是顺顺畅畅地读取了文件。直到今天有人问我python怎么读取文件出现了内存不足的错误?我才发现原来大文件(GB级别)的读取和普通文件的读取是不一样的。下面介绍三种我亲测可用的方法。这里的文件类型可以是txt,dat等类型的文件。 用read(size)方法 用iter和yield分段分段地读 用with open() 方法一read(size原创 2016-11-18 21:44:14 · 2038 阅读 · 0 评论 -
python如何解析包含不同编码的字符串
问题的描述 有个同学从网上下了一个数据包,是一个dat结尾的文件。读取出来的时候发现是GB2312的编码,但是当用GB2312去解码的时候还是遇到了问题。似乎有个别的字节解析不了。最后发现是字符串中的一个空格的编码并不是GB2312。那么问题来了,怎么做到正确解析这样的字符串呢?问题的发现with open('./news_sohusite_xml.dat', 'r') as f: for原创 2016-11-18 22:36:45 · 1446 阅读 · 0 评论