Python
文章平均质量分 59
周周Blog
对技术充满敬畏
展开
-
Python爬虫入门四
详解HTTPError我们在写爬虫去请求服务器的时候可能会遇到各种各样的错误,在HTTP协议中常用的客户端错误码如下400 坏请求(Bad Request)401未授权(Unauthorized)402必须的支付(Payment Required)403禁用(Forbidden)404没有找到(Not Found)406 不可接受的 (Not Acceptable)407 需要代理验证原创 2016-10-09 19:24:35 · 400 阅读 · 0 评论 -
Django 创建超级管理员是出现错误
Superuser creation skipped due to not running in a TTY. You can run manage.py createsuperuser in your project to create one manually.出现这个错误的解决方法就是在cmd中使用命令行 python manage.py createsuperuser 这样就可以成功了原创 2016-10-07 11:35:11 · 8320 阅读 · 1 评论 -
Python爬虫入门二
最简单的爬虫 首先介绍一下html,HTML是hyperText Markup Language 的缩写,又叫超文本标记语言,一个网页大部分是由HTML代码组成,HTML是一门制作网页的语言,我们如果要从网页上获取我们需要的信息,就要先看它的HTML,那么如何用Python看一个网页的HTML呢,很简单import urllib2response = urllib2.urlopen("原创 2016-10-06 20:47:13 · 671 阅读 · 0 评论 -
关于python编译时出现的问题
unindent does not match any outer indentation level 这个问题的解决方法是缩进的时候通以用Tab或者space不要两者混用原创 2016-09-20 17:20:07 · 632 阅读 · 0 评论 -
详细Python修饰器Decorator的函数式编程
Python的修饰器的英文名叫Decorator,修饰器就是对一个已有的模块做一些“修饰工作”,比如在现有的模块加上一些小装饰(一些小功能,这些小功能可能好多模块都会用到),但又不让这个小装饰(小功能)侵入到原有的模块中的代码里去。Python 的 Decorator在使用上和Java/C#的Annotation很相似,就是在方法名前面加一个@XXX注解来为这个方法装饰一些东西。但是,Ja转载 2016-09-25 18:12:57 · 415 阅读 · 0 评论 -
Python爬虫入门一
Python爬虫系列博客将会介绍爬虫的基础知识,简单的爬虫框架,并且穿插讲解一些web前端的知识,最后会用PyQt做UI用爬虫做一个简单的学校的教务系统什么是爬虫 网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawl> frontier)。此疆域上的统一资源地址将原创 2016-10-06 14:08:25 · 554 阅读 · 0 评论 -
selenium实战之教务系统自动化
本博文实现了教务系统自动化,可以自动爬取成绩先传入登录界面的URL,http://bkjw.guet.edu.cn/student/public/login.asp?driver.get("http://bkjw.guet.edu.cn/student/public/login.asp")打开开发者工具找到用户名和口令还有提交按钮元素,原创 2016-10-18 21:40:34 · 938 阅读 · 0 评论 -
Python爬虫工具之Selenium
selenium 是一个用于web自动化测试的工具集,selenium不尽支持所有主流的浏览器,而且还支持很多开发语言,更好的是他这种测试工具其实可以融入到不同的测试框架中,根据你的要求,适应不同的测试流程。其实selenium最核心的就是一个驱动浏览器进行自动化测试的东东。安装Seleniumpip install Selenium,建议用pip安装的时候原创 2016-10-18 21:10:19 · 343 阅读 · 0 评论 -
Python爬虫工具之Requests
Requests库的使用方法首先导入 requests模块import requests现在我们先请求得到一个网页 r = requests.get('https://api.github.com/events')我们得到了一个名字为r的响应对象,我们可以从r中得到我们想要的信息。比如cookies,content,headers,等等。原创 2016-10-12 20:45:59 · 379 阅读 · 0 评论 -
Python爬虫入门六
正则表达式1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;转载 2016-10-11 21:32:53 · 170 阅读 · 0 评论 -
phantonjs介绍
一、phantomjs介绍 (1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。转载 2016-10-10 18:24:52 · 1162 阅读 · 0 评论 -
Python爬虫入门五
**会话管理**1.Cookie技术Cookie用于服务器实现会话,用户登录及相关功能时进行状态管理,Cookie的会话数据保存在浏览器端。Cookie技术原理服务器创建Cookie对象,保存会话数据,把Cookie数据发送给浏览器浏览器获取cookie数据,保存在浏览器缓存区,然后在下次访问服务器时携带原创 2016-10-10 18:09:38 · 291 阅读 · 0 评论 -
Python爬虫入门三
1.设置请求头我们继续以教务系统为例,下面来模拟一下,用Python登录教务系统,在入门二中分析了From Data 中的数据,样子是这样的 那我们就在请求的时候将数据值传过去代码如下import urllib2原创 2016-10-08 20:46:39 · 789 阅读 · 4 评论