大星星的专栏

zhupite.com

Python编码UNICODE GBK UTF-8字符集转换的正确姿势

规范 脚本文件编码 由于需要经常性使用到中文字符,因此Python脚本新建后,请在头部添加代码: # coding: utf-8或者为pycharm设置代码模版,这样每次新建Python文件时会自动带上以上代码。如果不添加,即使字符串以u开头,也是编译不通过的。UNICODE 脚本中的字符最好使...

2017-02-20 18:36:55

阅读数 20851

评论数 0

获取句子迷的经典语录[Python版本]

#coding:utf-8 import star from bs4 import BeautifulSoup import win32clipboard, win32con def getJuzi(urlroot): nexturl = urlroot ipage = 0 ...

2016-08-08 17:41:50

阅读数 1747

评论数 0

Python打印函数用时的两种方法--类的构造析构函数与函数装饰器

在安卓审计项目里,我们使用python脚本来对APK进行扫描检测,为了统计每一步操作的耗时情况编写了一个简单的类,并通过下面的方式使用: #coding:utf-8import timeclass TimeRecorder: def __init__(self, name): ...

2016-04-13 10:36:12

阅读数 2006

评论数 0

pyspider总结

框架本身的好处: 步骤划分清晰,每步只要把每步的代码写好、调试好,能降低爬虫任务的复杂度和繁琐度。 可以有效利用中间结果分别调试其中的任何一个步骤,不用回溯整条任务链。 框架不足之处: 1、证书问题 2、登录问题 爬的多的时候如何对抗反爬虫机制,例如淘女郎爬虫任务,爬多了会提示重新登录,明明...

2016-03-30 16:39:45

阅读数 2226

评论数 0

pyspider创建淘女郎图片爬虫任务-运行流程解析

单步运行运行该任务,第一步爬取多页: 每个页面里面抓取10个淘女郎主页链接: 对每个淘女郎主页详情页面爬取图片链接: 图片全部下载在E:\taonvlang\目录下按淘女郎名称创建文件夹保存。

2016-03-30 16:38:22

阅读数 1352

评论数 0

pyspider创建淘女郎图片爬虫任务-源码解析

源码: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-03-29 10:59:36 # Project: taonvlang from pyspider.libs.base_handler import * ...

2016-03-30 16:37:32

阅读数 1356

评论数 0

PySpider HTTP 599: SSL certificate problem错误的解决方法

[E 160329 11:32:22 base_handler:194] HTTP 599: SSL certificate problem: self signed certificate in certificate chain Traceback (most recent ca...

2016-03-30 16:34:52

阅读数 8994

评论数 0

pyspider创建淘女郎图片爬虫任务--出师不利

首先pyspider all启动pyspider的所有服务,然后访问http://localhost:5000创建一个爬虫任务:taonvlang,点开任务链接编辑http://localhost:5000/debug/taonvlang,默认模板: 右侧为代码编辑区,可以在crawl_co...

2016-03-30 16:31:45

阅读数 4981

评论数 2

Windows下Python爬虫框架pyspider的安装与使用

1、安装 pip install pyspider Windows下安装需要注意的问题: http://docs.pyspider.org/en/latest/Frequently-Asked-Questions/ 2、启动 pyspider all ...

2016-03-30 16:30:40

阅读数 9449

评论数 1

使用selenium库制作自动提交表单的脚本

selenium用以制作自动化测试工具还是非常不错的,这里演示一个打开谷歌浏览器并输入一个关键词,最后提交搜索的示例脚本。 安装selenium见《Python库selenium的安装与使用》。 # coding:utf-8import starfrom...

2016-03-28 14:12:12

阅读数 4181

评论数 0

Python库selenium的安装与使用

下载:https://pypi.python.org/pypi/selenium#downloads 浏览器驱动:https://sites.google.com/a/chromium.org/chromedriver/downloads http://chromedriv...

2016-03-28 14:10:58

阅读数 14278

评论数 1

Python库beautifulsoup的安装与使用

http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到相应的库,解压后把bs4目录复制到Python安装目录下的lib目录下。 参考:http://cuiqingcai.com/1319.html #coding:utf-8from bs4...

2016-03-24 15:05:21

阅读数 7192

评论数 0

Python爬虫利器二之Beautiful Soup的用法

上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这...

2016-03-23 17:58:51

阅读数 1419

评论数 0

Python爬虫利器一之Requests库的用法

前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 注:Python 版本依然基于 2.7...

2016-03-23 15:43:36

阅读数 7275

评论数 1

Python编写定时关机小脚本

# coding: utf-8 import sys import os import time reload(sys) sys.setdefaultencoding("GBK") # shutdown computer after time_diff seconds d...

2016-03-11 17:42:01

阅读数 7843

评论数 1

Python网页抓取正则表达式应用练习-爬取基金信息

仅作练习: 1、Python网页抓取 2、Python正则表达式应用 直接上代码: # coding: utf-8import sysimport urllibimport urllib2import reimport requests# reload(sys)# sys.setdefau...

2016-03-03 18:25:14

阅读数 2027

评论数 0

Python抓取gb2312字符集网页中文乱码

最近在学习Python,练习用Python抓取网页内容并解析,在解析gb2312字符集网页时出现中文乱码: UnicodeEncodeError: 'gbk' codec can't encode character u'\xbb' in position 0: illegal multib...

2016-03-03 18:15:24

阅读数 6999

评论数 0

python字符串操作和string模块代码分析

任何语言都离不开字符,那就会涉及对字符的操作,尤其是脚本语言更是频繁,不管是生产环境还是面试考验都要面对字符串的操作。     python的字符串操作通过2部分的方法函数基本上就可以解决所有的字符串操作需求: python的字符串属性函数python的string模块 ~~~~~~~~~~...

2016-03-02 15:47:36

阅读数 796

评论数 0

Python 主要模块和常用方法简览

原文地址:http://blog.csdn.net/hwhjava/article/details/22284399 [python] view plain copy ********************   PY核心模块方法   *******...

2016-03-02 11:34:39

阅读数 781

评论数 0

Python利用Requests库写爬虫(一)

基本Get请求: #-*- coding:utf-8 -*- import requests url = 'http://www.baidu.com' r = requests.get(url) print r.text 带参数Get请求: #-*- coding:utf-8 -*-...

2016-03-01 16:06:32

阅读数 1259

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭