自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mighty13的专栏

所学甚杂,尽量把心得都记录下,以作备忘。

  • 博客(43)
  • 收藏
  • 关注

原创 Python实现中文词云(wordcloud),根据背景图片生成词云

Python实现词云的库有很多,较为常见的就是wordcloud 这个库基于PIL,PIL是必不可少的,需要用的还有matplotlib和numpy安装pip install wordcloud使用针对库示例做了一个简单修改,直接使用generate_from_frequencies方法,而没有使用generate()方法。有这样几个原因,generate_from_frequencies是基础的

2017-09-29 21:31:15 46083 1

原创 《Modern Python Cookbook》(Python经典实例)笔记1.5 真除法和向下截断除法(floor除法)

对于除法我们一般有三种期待结果:商和余数真值,浮点值准确的分数商和余数计算 用floor除法运算,即向下截断的除法运算和模运算。真值计算 用真除法,即我们一般意义上的除法,得到浮点值结果有理分数计算 可以使用fractions模块

2017-09-28 23:48:51 23888

原创 解决Windows下PIL库的"The _imagingft C module is not installed"错误

今天在尝试wordcloud库的时候发现一直报The _imagingft C module is not installed错误,这个错误是PIL的错误,主要作用是调用字体绘图。PIL只要用Python的估计都知道,基础的绘图库,但是早早弃坑了,替代库为Pillow。问题其实也很简单,原来Windows出现这个问题很好解决,到著名的Python二进制库站点 http://www.lfd.uci.

2017-09-27 22:27:47 25643 1

原创 批处理(.bat)无限循环,定时,固定时间间隔

情景需要固定时间间隔比如5秒运行一个文件,网上查了下最简单的就是用goto语句,如果不加延时那就是死循环,在里面加上延时语句choice /t 5 /d y /n >nul。下面的批处理作用就是每隔5秒屏幕上输出一次jajaja。@echo off:startecho jajajachoice /t 5 /d y /n >nulgoto start

2017-09-27 11:05:53 90573 6

原创 Python整数占用字节的异常现象(非4或8字节),sys.getsizeof(),sys.maxsize,sys.int_info

前面在书上看到Python3有大整数小整数之分,小整数即小于sys.maxsize(在Python2用sys.maxint表示)的整数,大整数即大于sys.maxsize的整数。小整数用4或8个字节表示,32位Python用4个字节,64位Python用8个字节表示。 大整数每个数字用15bit或30bit表示,即2字节或4字节表示。大整数没有4或8个字节的总长度限制,理论上可以无限大。我的机器装

2017-09-27 01:35:59 33133

原创 《Modern Python Cookbook》(Python经典实例)笔记1.3大整数和小整数

Python3中有大整数和小整数之分。区分的标准在于是否大于sys.maxsize。小整数一般是4字节或8字节表示,差异在于Cython的编译器,32位小整数一般用32位表示,64位用64位二进制表示。网上很多教程里说整数只能小于sys.maxsize不太准确。因为的确可以使用一些超大的整数,比如2**10000,这个数有多大呢。 用len(str(2**10000))算了下,总共3011位数字。

2017-09-26 23:45:52 23903

原创 ISBN编号的国家地区语言代码,出版社代码规则,中国出版社ISBN代码

由于现在各大电商网站出版社提供的ISBN号都是不带连字符‘-’的,但是数据库里ISBN是按连字符形式出现的,因此想自己做一个ISBN编号自动添加连字符’-‘的小工具,所以搜集整理了一些关于ISBN的编号的资料。分隔ISBN编号其实很简单,ISBN5个部分中,第一部分商品编号固定的3位,978或979;第5个部分校验位是最后1位;剩余的3位,只要确定其中两个部分的位数就可以把5个部分完全确定。思路是先

2017-09-25 19:29:17 49028 2

原创 Python ISBN号概述,校验位计算,10位-13位转换,验证,连字符,及常用库isbnid,isbnlib,isbntools的使用

ISBN概述因为工作原因经常需要用到ISBN。ISBN是国际标准书号的简称(International Standard Book Number),主要用于标识文献,也即是文献的“身份证号”,通过查询ISBN号可以获取唯一的某一种书。 ISBN大致可以分为10位和13位ISBN,在2007年1月1日前用的是10位ISBN,之后用的13位ISBN。两者最显著的区别一是在10位ISBN前加上“978”

2017-09-25 14:46:51 33408

原创 Python序列遍历enumerate()的使用方法,同时返回索引和值,索引值从1开始输出

对于序列的遍历,Python推荐的是for…in…sequence语句,这个语句其实和for…in…range()一样是按照索引顺序遍历的,但是用in语句的话不能直接使用索引值。在实际应用中,遍历经常也要用到索引值,比如计数,统计进度等等。用range的话怎么看着都生硬,其实可以使用enumerate()函数。enumerate的意思是列举、枚举。enumerate()函数时Python的内置函数。

2017-09-24 19:10:21 41572 1

原创 批处理bat 延时启动的方法

批处理延时启动的方法有很多 常见的有:ping,VBS等方法,方法很多,优缺点各有不同。经过实验总结如下:时间间隔精度高,CPU占用率低代码如下:choice /t 5 /d y /n >nulchoice命令格式如下:CHOICE [/C choices] [/N] [/CS] [/T timeout /D choice] [/M text]参数列表: /C choices 指定要创建的选项列

2017-09-24 18:27:04 33739

原创 读取文本出现 锘 * 系列乱码错误(UTF-8 BOM问题)的原因及解决方法

现象读取文本时经常会出现锘*系列错误。 例1:锘縣,其实开头的文本是h,http被显示为锘縣ttp 例2:锘缝,其实开头的文本是p,public被显示为锘缝ulic 只要文本的首字母为锘的都属于这类错误,在Python、Java、PHP等等使用过程中都会遇到,这类错误与语言无关,错误的原因是UTF-8的BOM。原因BOM即Byte Order Mark,是UTF-8文档的Unicode签名,即

2017-09-24 16:53:57 32391

原创 requests https访问错误SSLError: certificate verify failed 及InsecureRequestWarning处理办法

在使用requests访问某网站时,提示如下错误,Python版本为2.7.13。SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)经过搜索,urllib或requests在打开https站点是会验证证书。 简单的处理办法是在get方法中加入verify参数,并设为false。reque

2017-09-24 12:45:50 35459

原创 爬取京东图书价格信息分析

因为工作关系,经常需要整理一些书目信息,由于对于图书方面大家也不太了解,所以提交过来的书目经常信息不全。再者因为某些原因需要到京东选一些书,懒得从京东复制粘贴信息。所以做了个简易爬虫,获取图书的书名、作者、ISBN、出版社、出版日期和定价。 其他信息倒还简单,就是定价信息稍微麻烦点,京东价格不是直接写在HTML里面的,而是异步加载的,通过firebug可以看到。 简单分析下,上面的jso

2017-09-23 08:29:38 25043

原创 ECharts3 实现数据动态更新3+时间坐标,数据累积

代码修改自ECharts3文档异步数据加载和更新中的数据的动态更新部分,原示例固定显示若干数据,简单进行了修改,数据累积加上时间坐标。 是否累积数据的关键在于shift(),去掉shift()之后即累积数据。其实ECharts3之后更新数据挺简单的,越来越清晰。 var date = [];var data = [Math.random() * 150];var now = new Date(

2017-09-22 09:29:23 25941 2

原创 ECharts3 实现 AJAX异步加载 数据库数据

ECharts3的文档里其实对异步加载说的很明白,但是示例都是生成的随机数据,大多数应用是直接读数据库数据然后动态加载到ECharts图表里的,简单的思路就是把需要显示的数据库数据封装成json格式,然后异步获取json数据,解析显示在图表里。生成json数据不多说了,js重要部分如下: var startTime1=$("#start").html(); var endTime1=$

2017-09-22 08:44:07 25644

原创 ECharts3 实现动态数据累积图2+时间坐标

对ECharts3官网中动态数据+时间坐标轴实例进行了修改,X轴为当前时间,并数据累积。累积数据的方法很简单。把data.shift();注释掉就可以了。可在ECharts3实例中的代码框中粘贴直接查看效果。function randomData() { now = new Date(+now + 1000); value = value + Math.random() * 21

2017-09-21 23:28:58 26691 3

原创 ECharts3 实现动态数据累积图

原来网站上的实例是固定只显示10个数据,简单做了一些修改,1秒生成1个数据,数据累积。可在ECharts3实例中的代码框中粘贴直接查看效果var app = {}; option = { title: { text: '动态数据', subtext: '纯属虚构' }, tooltip: { trigger: '

2017-09-21 18:46:27 27028

原创 ECharts3 实现四象限图

可在ECharts3实例中的代码框中粘贴直接查看效果option = { title : { text: '男性女性身高体重分布', subtext: '抽样调查来自: Heinz 2003' }, grid: { left: '3%', right: '7%', bottom: '3%',

2017-09-21 18:10:28 33904 1

原创 《Modern Python Cookbook》(Python经典实例)笔记1.2 命名

类一般用大驼峰命名法CapitalizedCamelCase,即每个单词的首字母大写 其他对象用蛇底命名法snake_case 文件名应当遵循Python命名法,要不然影响作为模块或包使用 链式命名法:x=y=1

2017-09-20 17:43:13 24211

原创 《Modern Python Cookbook》(Python经典实例)笔记1.4 浮点数、小数、分数

货币值计算 计算货币值时,应当使用decimal模块,如果使用float会出现舍入和截断问题。 decimal.quantize()函数的使用。 decimal模块提供各种舍入规则。分数计算 分数计算使用fractions模块。 分母是2的幂时,分数得到的浮点值很精确,不是2的幂时会产生浮点近似值。

2017-09-20 12:51:31 24218

原创 selenium、python模拟登陆淘宝

#coding=utf-8import timeimport datetimeimport sysimport osimport randomimport loggingfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support.u

2017-09-19 21:56:42 33186

原创 Windows批处理.bat检测是否安装某些软件

@echo offreg query HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Uninstall\|find /i "sogou input">nul 2>nulif %errorlevel%==0 (echo 搜狗拼音输入法:已安装) else echo 搜狗拼音输入法:未安装echo.reg query H

2017-09-18 10:32:33 35997 2

原创 Windows批处理.bat自动安装Python、设置系统变量、替换文件及安装库

低版本的Python2.7不能直接设置系统环境变量,而且安装setuptools时有一些小BUG,之前写了一个自动安装处理Python2.7.6的批处理,包含安装Python2.7,替换文件,本地安装库。::python版语言环境、配置自动安装批处理文件::初始化批处理文件CLS@ECHO OFFECHO.::检测操作系统是否为windows32位操作系统,如果是,继续安装,如果不是,提示并

2017-09-18 09:58:05 32972 3

原创 使用Windows批处理和WMI设置Python的环境变量

大概在Python2.7.xx以前,安装Python时环境变量是需要自己设的,所以自己做了一个批处理来设置环境变量Path,通过WMI命令wmic来实现。::检查path中有没有相关路径 echo %path%|findstr /i "c:\python27\scripts"&&(goto run) ::先添加,防止没有时修改出错 wmic ENVIRONMENT create name="

2017-09-18 01:21:50 24447

原创 Selenium操作CNKI(中国知网)网站的远见搜索

最近想对单位发表的期刊情况做一个文献计量学分析,数据倒也不多,但是手动保存优点麻烦。两年前用spynner.py做过抓取CNKI管理后台,spynner基本弃坑了,一直没再动过。CNKI网站为了反爬,做的太复杂,平时自己访问都感觉慢,一看源代码,加载了一堆js,能不慢吗?Python2,selenium操作如下(仅关键部分,代码不全):# coding: utf-8import timeimpor

2017-09-17 23:48:22 27518

原创 Selenium操作中文时UnicodeDecodeError: 'utf8' codec can't decode 错误

使用Python及selenium操作网页,出现中文时,比如填写表单element.send_keys('中国')可能会出现UnicodeDecodeError: ‘utf8’ codec can’t decode错误解决方法如下:'中国'.decode('gb18030')

2017-09-17 23:36:52 25605

原创 Python通过MD5值实现重复文件的检测

平时上课时学生上机作业经常有直接复制别人的文件,只修改文件名的抄袭情况,为了快速检测这种问题,通过MD5值简单的写了下,聊胜于无吧,有时间了写一个更完善的。# coding: utf8import hashlibimport osfrom collections import Counterimport sysreload(sys)sys.setdefaultencoding('utf-8'

2017-09-16 02:28:20 25095

原创 Python中文路径及"ValueError: invalid \x escape"的处理方法

很不凑巧,我刚好有”e:\xx\新建文件夹”这么一个路径,把Python路径问题踩了个遍。原始代码为:input_path="e:\xx\新建文件夹"print input_path结果为:File "xxxxx.py", line 1SyntaxError: Non-ASCII character '\xe6' in file xxxxx.py on line 1, but noencodi

2017-09-15 22:51:37 32636

原创 Python遍历文件夹下所有文件及目录

#!/user/bin/python #!conding=utf8 import os g = os.walk("G:\mis") for path,d,filelist in g: for filename in filelist: print os.path.join(path, filename)

2017-09-15 21:16:24 166826

原创 Python实现检测文件的MD5值来查找重复文件

平时学生交上机作业的时候经常有人相互复制,直接改文件名了事,为了能够简单的检测这种作弊行为,想到了检测文件的MD5值,虽然对于抄袭来说作用不大,但是聊胜于无,以后可以做一个复杂点的。#-*- coding: utf8 -*-import hashlibimport osimport globfrom collections import Counterimport sys#set sys

2017-09-15 21:15:27 27283

原创 如何在Django中输出matplotlib生成的图片

下面的代码片段是直接在Django中输出matplotlib生成的图片,网上很多种方法都是先生成图片再调用,感觉不是那么直接。 环境:Python2.7,Django1.83 该文件为views.py文件,函数映射按实际设置。from django.shortcuts import renderfrom django.http import HttpResponsefrom matplotli

2017-09-15 18:31:29 33277 1

原创 H指数(h-index)的Python实现

H指数(H-index)是一种比较主流的科研评价方法,可用于评估研究人员的学术产出数量与学术产出水平。某人在一定期间内发表的论文至少有h篇的被引频次不低于h次,H指数指的就是h的最大值。例如,张三发表了10篇论文,其中有5篇论文被引用次数大于等于5次,而没有6篇论文的引用次数大于等于6次,那么张三的H指数即为5。'''输入一个列表,列表内容为某人的每篇文章的引用次数。输出H指数值'''def

2017-09-15 14:43:12 31501 1

原创 测试下MarkDown编辑器

CSDN现在的HTML编辑器用起来真的不太爽,特别是代码块,修改起来很多不便。 现在比较习惯各种的文本编辑器,不管是写代码还是写文章、记笔记,轻量级。 而且在写的过程中,不用太在意格式问题。def blog_test( ): pass无序列表编号列表编号呢

2017-09-14 21:07:00 23389

原创 IPython notebook(Jupyter notebook)如何显示已安装的内核

IPython notebook(Jupyter notebook)如何显示已安装的内核(kernel)?ipython kernelspec list或jupyter kernelspec list第一个命令即将被废止,尽量用第二个命令。

2017-09-14 18:16:44 24932

原创 IPython notebook(Jupyter notebook)Python2和Python3内核(Kernel)共存

自己计算机里面共存了Python2和Python3,ipython作为试探性的REPL解释器使用的频率还是挺高的,分别在2和3下安装完ipython notebook后怎么分别使用这两种内核呢按照默认的 jupyter notebook命令,只能运行一种内核,如Python3,想运行Python2内核怎么办呢?ipython kernel install --name python2ip

2017-09-13 23:04:40 31910 4

原创 IPython notebook(Jupyter notebook)指定IP和端口运行

jupyter notebook --no-browser --port 6000 --ip=192.168.1.103

2017-09-13 22:51:17 74398

原创 IPython notebook的安装及安装后网页不能打开问题

安装很简单pip install ipython[notebook]或pip install jupyter notebook第一种安装方式即将被淘汰。安装完在命令行输入ipython notebook或jupyter notebook就会在浏览器里打开notebook但是我遇到了notebook网页打不开的问题使用netstat命令查看端口后发现,notebo

2017-09-13 12:55:06 38664

原创 python 解析类似 '\xe4\xb8\xad\xe5\x9b\xbd'的unicode码为汉字

#基础知识以Python2.7为例,以iPython样式演示In [1]:s='中国'In [2]:sOut [2]:s='\xe4\xb8\xad\xe5\x9b\xbd'In [3]:s=u'中国'In [4]:sOut [4]:s=u'\u4e2d\u56fd'In [1]:s='\xbe\xdc\xbe\xf8\xb7\xc3\xce\xca\xa1\xa

2017-09-13 12:29:16 37160

原创 Python操作MS SqlServer

#coding=utf-8 #-------------------------------------------------------------------------------# 测试 pymssql库,该库到这里下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pymssql#------------------------------

2017-09-12 17:22:42 23552

原创 Python操作MySQL数据库

#coding=utf-8import MySQLdbimport MySQLdb.cursorsconn= MySQLdb.connect( host='localhost', port = 3306, user='root', passwd='root', db ='test', curso

2017-09-12 17:20:12 23323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除