python
_compiling
学习中。。。
展开
-
理解Python中的with语句
python中with语句的理解。转载 2016-07-07 11:09:31 · 484 阅读 · 0 评论 -
python3 pandas读写excel
0. 前言Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,能使我们快速便捷地处理数据。本文介绍如何用pandas读写excel。1. 读取excel读取excel主要通过read_excel函数实现,除了pandas还需原创 2017-08-08 14:47:27 · 91973 阅读 · 2 评论 -
LSI(LSA)潜在语义索引原理及sklearn中的实现
想要了解潜在语义索引的原理推荐以下三个链接,仔细看下就能基本掌握LSI的原理:1.文本主题模型之潜在语义索引(LSI)2.奇异值分解(SVD)原理与在降维中的应用3.latent semantic analysis via the singular value decompositionLSI的核心在于svd,在sklearn中提供了svd的实现。具体接口如下:sklearn.原创 2017-07-28 11:24:18 · 3314 阅读 · 0 评论 -
python中的序列化
0.索引 1.json序列化变量 2.numpy序列化ndarray 3.pickle序列化变量 序列化 (Serialization)是指将对象、数据结构的状态信息转换为可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建...原创 2017-07-07 23:49:54 · 7115 阅读 · 1 评论 -
斯坦福自然语言处理工具python环境配置
斯坦福自然语言处理工具python环境配置1. 简介Stanford nlp group 是世界知名的自然语言处理研究组,该组的研究内容涵盖了从基本的计算语言原理研究到NLP的关键应用技术。其中,该组所开发的coreNLP工具被广泛应用,该工具提供了分词、词性标注、语法分析、共指消解、命名实体识别等操作。Stanford coreNLP源码使用Java编写而成,但一些程序员将coreNLP进行了封装原创 2017-10-28 00:46:03 · 1323 阅读 · 0 评论 -
字符编码相关概念理解
写在前面。字符编码是一个让人头疼的问题,让问题显得混淆的原因不止在于编码本身的多样性和发展变化,更在于人们对于其中所涉及的术语概念的滥用。本文所提到的术语概念是在查阅相关资料以及文献汇总得到的,注重于对编码所涉及的问题的梳理。一、基本概念字符集:一个国家或地区,或者某种语言文字中所使用的所有符号的集合。如中国字符集指的就是“汉字”和标点。字符编码:一个从字符集到一个非负整数集合直接的一原创 2016-12-14 10:57:55 · 414 阅读 · 0 评论 -
python内部装饰器@classmethod, @staticmethod, @property
python面向对象编程中经常会用到三个装饰器语法:@classmethod, @staticmethod, @property。因为之前学习了下装饰器,所以在此了解一下python内置的三个装饰器。@staticmethod和@classmethod面向对象中类的方法一般有实例方法和静态方法两种,实例方法的调用需要先创建类的实例对象,而静态方法可以直接可以通过类名来调用。在python中使用@st原创 2017-12-06 20:47:08 · 1976 阅读 · 0 评论 -
python装饰器
一、概述python中可以看到@statement的语法,它通常出现在函数定义或类定义的前面一行。这就是python装饰器,用于在不做代码变动的情况下增强函数或类的功能。装饰器可以提取大量函数中与本身功能无关的类似代码,从而达到代码重用的目的。它有着很多经典使用场景,例如插入日志、性能测试、事务处理等等。二、语法装饰器的一般的语法如下:#声明两个装饰器f1、f2def f1(arg): d原创 2017-11-24 21:32:08 · 294 阅读 · 0 评论 -
python单元测试
概述单元测试是用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 类似的概念还有QA测试,二者存在着一些区别,具体如下: QA测试 单元测试 时间 开发后 开发中、开发前(测试驱动开发) 对象 模块、(子)系统 函数、类 方式 手动or自动 自动 测试目的 功能、异常、性能、压力 算法、逻辑单元测试的意义: - 提升代码覆原创 2017-12-25 16:16:10 · 502 阅读 · 0 评论 -
python运算符优先级
以下运算符优先级顺序依次递增:Lambda #运算优先级最低逻辑运算符: or逻辑运算符: and逻辑运算符:not成员测试: in, not in同一性测试: is, is not比较: <,<=,>,>=,!=,==按位或: |按位异或: ^按位与: &移位: << ,>>加法与减法: + ,-乘法、除法与取余:...原创 2018-03-09 12:00:23 · 1706 阅读 · 0 评论 -
python安装第三方库提示cc1plus: warning: command line option “-Wstrict-prototypes” is valid for C/ObjC ....
py2安装pyltp的时候一直卡着不动,使用-v参数查看安装过程,发现一直提示:cc1plus: warning: command line option “-Wstrict-prototypes” is valid for Ada/C/ObjC but not for C++。py3安装pyltp的时候并不会提示这个错误。用搜索引擎查看了一下这个错误,似乎是一个python的bug,这个参数可以...原创 2018-04-09 12:11:40 · 26173 阅读 · 4 评论 -
Python, MySQLdb 编码问题 UnicodeEncodeError:'latin-1' codec can't encode character ...
解决python MySQLdb 插入数据时出现"UnicodeEncodeError:'latin-1' codec can't encode character ..."错误翻译 2016-04-24 12:57:41 · 1854 阅读 · 0 评论 -
python中的json模块介绍
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,其最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。json类似于xml,但比 XML 更小、更快,更易解析。简单来讲,json的格式与python种的字典和列表及其二者的组合类似。如下面的一个json格式的数据(引自百度百科):{ "programmers": [{原创 2017-02-08 20:26:58 · 2977 阅读 · 0 评论 -
python lxml库etree解析html
在用python爬取数据时重要的一个环节就是从获得的html页面中分析提取出所需要的数据。一个常用的方法是使用正则表达式,进行匹配提取,这是一种通用的字符串匹配分析方式。但对于html页面来说并没有很好地利用其结构化的特点,python第三方库lxml中的etree提供了另一种更快速方便解析提取html页面数据的方式。占坑写简单的介绍。传送门:用lxml解析html原创 2016-07-18 13:18:22 · 18757 阅读 · 0 评论 -
python datetime模块处理时间
写程序时遇到了记录日期、时间,比较时间早晚的需求,考虑用datetime模块来实现。 datetime模块定义了下面这几个类:datetime.date:表示日期的类。常用的属性有year, month, day; datetime.time:表示时间的类。常用的属性有hour, minute, second, microsecond; datetime.datetime:...原创 2016-07-21 00:01:28 · 424 阅读 · 0 评论 -
python三行实现快排
# Quick Sort in 3 linesdef qsort(L): if len(L) <= 1: return L return qsort([lt for lt in L[1:] if lt = L[0]])原创 2016-08-10 14:39:52 · 990 阅读 · 0 评论 -
python函数参数介绍
python中自定义函数的参数主要分为4种,分别为必选参数、默认参数、可变参数和关键字参数。必选参数:常用的一种参数,调用函数时必须传递该参数def func(x): print x默认参数:调用函数时可以不传递该参数,此时函数将该参数设置为默认值def func(x=1): print x#如果x没有传入值,则打印1可变参数:定义时参数前面加*,则该原创 2016-09-27 13:17:33 · 298 阅读 · 0 评论 -
python拷贝对象
在python中复制变量时应当注意,Python中的对象之间赋值时是按引用传递的,如果需要拷贝对象,需要使用标准库中的copy模块。 1. copy.copy 浅拷贝 只拷贝父对象,不会拷贝对象的内部的子对象。 2. copy.deepcopy 深拷贝 拷贝对象及其子对象 import copy a = [1, 2, 3, 4, ['a', 'b']] #原始对象 b = a #赋值原创 2016-10-15 19:12:40 · 420 阅读 · 0 评论 -
python变量作用域
变量作用域(scope)在Python中是一个容易掉坑的地方。什么是作用域作用域简单说就是一个变量的命名空间。代码中变量被赋值的位置,就决定了哪些范围的对象可以访问这个变量,这个范围就是命名空间。python赋值时生成了变量名,当然作用域也包括在内。Python的作用域一共有4中,分别是:L (Local) 局部作用域E (Enclosing) 闭包函数外的函数中G (原创 2016-10-26 14:11:13 · 269 阅读 · 0 评论 -
python内置模块urlparse解析url
写检索作业的时候遇到了操作url的问题,发现urlparse内置模块提供了一些帮助。原创 2016-12-11 18:56:46 · 1563 阅读 · 0 评论 -
使用lxml去除html中的tag得到纯文本
主要使用lxml.html.document_fromstring()实现。原创 2016-12-11 18:58:56 · 2347 阅读 · 0 评论 -
python多线程-threading模块
threading通过对thread模块进行二次封装,提供了更方便的API来操作线程。原创 2016-10-14 19:49:11 · 317 阅读 · 0 评论 -
python爬虫解决网页重定向问题
笔者使用python2.7+requests编写爬虫,以下问题针对此情况讨论。重定向(Redirect)就是通过各种方法(本文提到的为3种)将各种网络请求重新定个方向转到其它位置(URL),编写的搜索引擎爬虫在爬取页面时遇到了网页被重定向的情况。当重定向发生在某个网站的主页时,作为该网站的入口,如果不能正确处理重定向很有可能会错失这整个网站的内容。笔者编写的爬虫在爬取网页时遇到了三种重定向原创 2016-12-12 22:04:21 · 36575 阅读 · 5 评论 -
python selenium库爬虫介绍
原文链接:python爬虫从入门到放弃(八)之 Selenium库的使用。一、什么是Seleniumselenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaSc...转载 2018-12-03 12:49:00 · 486 阅读 · 0 评论