Python
cq1982
这个作者很懒,什么都没留下…
展开
-
windows系统下Python环境的搭建
1、首先访问http://www.python.org/download/去下载最新的python版本。 2、安装下载包,一路next。 3、为计算机添加安装目录搭到环境变量,如图把python的安装目录添加到pth系统变量中即可。 4、测试python安装是否成功,cmd打开命令行输入 python 命令,如下图即成功了转载 2015-03-26 20:44:01 · 719 阅读 · 5 评论 -
[Python学习] 专题二.条件语句和循环语句的基础知识
前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括: 1.条件语句:包括单分支、双分支和多分支语句,if-elif-else 2.循环语句:while的使用及简单网络刷博器爬虫 3.循环语句:for的使用及遍历列表、元组、文件和字符串前言: 语句块 在讲诉转载 2015-03-27 00:13:06 · 730 阅读 · 0 评论 -
[Python学习] 专题三.字符串的基础知识
在Python中最重要的数据类型包括字符串、列表、元组和字典等.该篇主要讲述Python的字符串基础知识.一.字符串基础 字符串指一有序的字符序列集合,用单引号、双引号、三重(单双均可)引号引起来.如: s1='www.csdn.net' s2="www.csdn.net" s3='''aaabbb''' 其中字符串又包转载 2015-03-27 00:14:27 · 563 阅读 · 0 评论 -
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要包括: 1.介绍爬取CSDN自己博客文章的简单思想及过程 2.实现转载 2015-03-27 00:18:30 · 1560 阅读 · 0 评论 -
[Python学习] 专题四.文件基础知识
前面讲述了函数、语句和字符串的基础知识,该篇文章主要讲述文件的基础知识(与其他语言非常类似).一. 文件的基本操作 文件是指存储在外部介质(如磁盘)上数据的集合.文件的操作流程为: 打开文件(读方式\写方式)->读写文件(read\readline\readlines\write\writelines)->关闭文件 1.打开文件转载 2015-03-27 00:18:57 · 699 阅读 · 0 评论 -
[python学习] 简单爬取图片网站图库中图片
最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取“游讯网图库”中的图片,因为每次点击下一张感觉非常浪费时间又繁琐。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片,支持游讯网不要去破坏它。 通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_转载 2015-03-27 00:24:59 · 18761 阅读 · 2 评论 -
[python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现;后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识。由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助。如果有错误或不足之处,欢迎之处;如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图。一. 维基百科和Infobox转载 2015-03-27 00:21:17 · 2803 阅读 · 1 评论 -
[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy = Scrach+Python,Scrach这个单词是抓取的意思,暂且可以叫它:小抓抓吧。小抓抓的官网转载 2015-03-26 23:54:44 · 762 阅读 · 0 评论 -
仿照写的sina微博的简单爬虫
1、创建工程scrapy startproject sinablog2、修改items.pyimport scrapyclass SinablogItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() article_name = scr原创 2015-03-28 14:24:03 · 706 阅读 · 0 评论 -
Scrapy研究探索(五)——自动多网页爬取(抓取CSDN某人博客所有文章)
首先,在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中,研究的是爬取单个网页的方法。在教程(三)(http://blog.csdn.net/u012150179/article/details/34441655)中,讨论了Scrapy核心架构。现在在(二)的基础上,并结合在(三)中提到的爬取多网页的原理方法,进而进行转载 2015-03-28 13:05:32 · 1121 阅读 · 0 评论 -
Python中setuptools的简介
Python中setuptools的简介http://www.juziblog.com/?p=365001经常接触Python的同学可能会注意到,当需要安装第三方python包时,可能会用到easy_install命令。easy_install是由PEAK(Python Enterprise Application Kit)开发的setuptools包里带的一个命令,所以使用easy_转载 2015-08-26 13:57:02 · 909 阅读 · 0 评论 -
[转]Python、Django以及PyCharm安装心得
第一步:安装python(最好安装2.x的版本,3.x的版本目前还不支持Django) 我装的是python2.7,下载网址: http://www.python.org/getit/releases/2.7/ 安装过程比较简单,略了 第二步:安装PostgreSQL和Psycopy Django支持的数据库有Postgr转载 2015-08-17 17:56:12 · 1861 阅读 · 0 评论 -
[Python学习] 专题一.函数的基础知识
最近才开始学习Python语言,但就发现了它很多优势(如语言简洁、网络爬虫方面深有体会).我主要是通过《Python基础教程》和"51CTO学院 智普教育的python视频"学习,在看视频中老师讲述函数知识的时候觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容: 1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.转载 2015-03-27 00:11:16 · 821 阅读 · 0 评论 -
[Python]网络爬虫(七):Python中的正则表达式教程
接下来准备用糗百做一个爬虫的小例子。但是在这之前,先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html整理时转载 2015-03-26 23:20:12 · 574 阅读 · 0 评论 -
[Python]网络爬虫(一):抓取网页的含义和URL基本构成
一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如转载 2015-03-26 21:10:47 · 608 阅读 · 0 评论 -
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs转载 2015-03-26 21:56:18 · 554 阅读 · 0 评论 -
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类
先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时,产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类,通常在特定HTTP URLs中产生。 1.URLError通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不转载 2015-03-26 22:27:35 · 852 阅读 · 0 评论 -
[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍
一. 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下: [python学习] 简单爬取维基百科程序语言消息盒 [Python学习] 简单网络爬虫抓取博客文章及思想介绍 [python学习] 简单爬取图片网站图库中图片 其中核心代码如下转载 2015-03-27 00:26:28 · 10506 阅读 · 1 评论 -
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用
更好的学习网址:http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError转载 2015-03-26 22:47:24 · 589 阅读 · 0 评论 -
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节。1.Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理。新建test14来实现一个简单的代理Demo:[python] view转载 2015-03-26 23:07:08 · 730 阅读 · 0 评论 -
[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
Q&A:1.为什么有段时间显示糗事百科不可用?答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。2.为什么需要单独新建个线程?答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网转载 2015-03-26 23:29:07 · 743 阅读 · 0 评论 -
[Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8')。百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。源码下载:http://download.csdn.net/detail/wxg694175346/转载 2015-03-26 23:36:33 · 770 阅读 · 0 评论 -
[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)
先来说一下我们学校的网站:http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。1.决战前夜先来准备一下工转载 2015-03-26 23:51:55 · 1431 阅读 · 0 评论 -
[Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
(建议大家多看看官网教程:教程地址)我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeli转载 2015-03-27 00:00:53 · 867 阅读 · 3 评论 -
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
# -*- coding: utf-8 -*-#---------------------------------------# 程序:百度贴吧爬虫# 版本:0.1# 作者:why# 日期:2013-05-14# 语言:Python 2.7# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。# 功能:下载对应页码内的所有页面并存储为转载 2015-03-26 23:15:16 · 677 阅读 · 0 评论 -
HTTPie:一个不错的 HTTP 命令行客户端
HTTPie (读aych-tee-tee-pie)是一个 HTTP 的命令行客户端。其目标是让 CLI 和 web 服务之间的交互尽可能的人性化。其有特点如下:直观的语法格式化和色彩化的终端输出内置 JSON 支持支持上传表单和文件HTTPS、代理和认证任意请求数据自定义头部持久性会话类 Wget 下载支持 Python 2.6, 2.7 和 3.x支持 Linux,转载 2015-11-24 10:06:22 · 1404 阅读 · 1 评论