python
zhisheng_blog
这个作者很懒,什么都没留下…
展开
-
Python中遇到"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequ
源地址:http://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/【背景】问题参见:python2.7 urllib2 抓取新浪乱码中的:报错的异常是 UnicodeDecodeError: ‘gbk’转载 2016-06-03 19:10:13 · 5238 阅读 · 0 评论 -
Pyspider 框架学习时走过的一些坑
背景:自己在做一个 V2EX 爬虫的时候,需要把爬取的帖子中的内容( title 和 content)保存在本地数据库。 环境:Pycharm 2016.1 + MySQL 5.7 + Pyspider + MySQL workbench + python 2.7 32位1. windows下安装MySQLdb出现的问题及其解决方法你有两个选择:安装已编译好的版本(一分钟)原创 2016-10-20 22:42:26 · 9625 阅读 · 5 评论 -
HTTP 599: SSL certificate problem: unable to get local issuer certificate错误
自己在用 PySpider 框架爬虫运行代码后时出现 HTTP 599: SSL certificate problem: unable to get local issuer certificate错误完整报错信息: HTTP 599: SSL certificate problem: unable to get local issuer certificate [E 161018 21原创 2016-10-18 22:05:04 · 21033 阅读 · 10 评论 -
Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子
背景:PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。在线示例: http://demo.pyspider.org/官方文档: http://docs.pyspider.org/en/latest/ Github : https://github原创 2016-10-22 20:28:29 · 8821 阅读 · 2 评论 -
网易云音乐登录信息加密算法详解
原文地址:网易云音乐新登录API分析网易云音乐登录加密算法核心过程如下: text = { 'username': username, 'password': password, 'rememberLogin': 'true' } text = json.dumps(text) secKey = createSecretKey(转载 2016-10-11 16:28:29 · 14741 阅读 · 2 评论 -
Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子完整代码地址:Python爬虫实战之爬取糗事百科段子程序代码详解:Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子。包含的信息有作者名称,觉得好笑人数,评论人数,发布的内容。如果发布的内容中含有图片的话,则过滤图片,内容依然显示出来。Spider2-qiushibaike.py:在Spider1-qiushibaike.py基础原创 2016-08-25 15:38:30 · 3109 阅读 · 0 评论 -
Python爬虫入门——正则表达式
Python爬虫入门之正则表达式在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1. 了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字原创 2016-08-25 14:37:45 · 1314 阅读 · 0 评论 -
Python爬虫入门——URLError异常处理
Python爬虫入门五之URLError异常处理1. URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码URLError.py中,我们需要用try-except语句来包围并捕获相应的异常。#-*-coding:utf8-*-#created by 10412import urllib2request = urllib原创 2016-08-18 16:44:40 · 2422 阅读 · 0 评论 -
解决 Successfully created project '' on GitHub, but initial push failed: Could not read from remote
本人安装Git-64bit,然后在PyCharm中Settring -> VersionControl ->GitHub ,设置自己的github账号和密码,点击Test测试Success成功提示了 ,然后把项目发布到GitHub中:VCS -> Import into Version Control -> Share Project on Github。出现如下错误信息: Can’t fini原创 2016-08-17 15:56:36 · 15978 阅读 · 12 评论 -
_compile(pattern, flags).findall(string) TypeError: cannot use a string pattern on a bytes-like
最近在自学python,做的一个图片爬虫,却出现一些错误,特此总结下来,为了别人遇到同样错误时可以快速解决同样的问题。#coding=utf-8import urllibimport urllib.requestimport reurl = "http://tieba.baidu.com/p/2460150866"page = urllib.request.urlopen(url)html原创 2016-08-17 10:54:31 · 66438 阅读 · 18 评论 -
Pycharm连接Github
本文首发在简书,地址:Pycharm连接Github,如果觉得文章不错可以分享。绑定账号1、File->Settings->Version Control->Github会出现github,然后在旁边输入你github的用户名和密码,可以点击”test”测试一下,如果出现:Connection successful,则代表连接成功了。2、选择Git安装路径 设置github后选择git,输入你gi原创 2016-06-04 16:38:53 · 3994 阅读 · 0 评论 -
Python爬虫实战之爬取百度贴吧帖子
Python爬虫实战之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件1. URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/313原创 2016-09-28 09:02:29 · 11754 阅读 · 5 评论