自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python脚本设置运行参数

正在学习Django框架,在运行manage.py的时候需要给它设置要监听的端口,就是给这个脚本一个运行参数。教学视频中,是在Eclipse中设置的运行参数,网上Django大部分都是在命令行中运行manage.py时添加参数,没有涉及到如何在pycharm中设置运行参数。以下是两种设置运行参数的方法(以manage.py为例),不设置运行参数时,运行结果为D:\Python2.7\pytho

2017-04-11 13:45:22 11506

原创 python模块的一些小知识

一、python模块的基本用法模块是包含函数和其他语句的python脚本文件以".py"为后缀名,和我们平常所写的python脚本并没有什么区别1、导入模块在python中可以使用以下三种方式导入模块或模块中的函数(1)import    模块名import rere.findall() #调用re模块下的findall()这个函数使用import是将整个模块导入

2017-04-06 21:23:11 457

原创 用bs爬取安居客优秀经理人信息

目标1、安居客二手房,随便一个城市,选择优秀经纪人,爬取所有页数 网址:http://beijing.anjuke.com/tycoon/p/过程1、在网页源代码中找到所需要的数据2、用bs提取出所需要的信息,代码如下#encoding=utf8import reimport urllibimport urllib2from bs4 im

2016-12-19 20:26:37 747

原创 用正则爬取糗事百科的段子

目标1、爬取糗事百科的所有热门段子2、将发帖人、段子内容、好笑数爬取下来3、将图片过滤掉过程1、传入user_agent,介绍如下图所以我们在写爬虫的时候可以加上去,可以解决一些禁止爬虫访问,返回不了源代码的问题user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' he

2016-12-19 19:34:08 421

原创 爬取整个百度贴吧

python是一门面向对象的编程语言,在我之前所学习的一些小爬虫中,代码大部分比价简单,都是面向过程的。但是在爬百度贴吧一个整个贴吧的时候问题就来了,要写出一个通用的代码,就要考虑获取贴吧的页数,帖子的页数,帖子的标题,帖子的内容.......等等。如果按照以前的写法,一个个for循环嵌套在一块,明显是不行的,不仅不清楚,也不容易实现。最终代码是在参考了静谧博客上爬取百度贴吧单个帖子的教程,完成了整个百度贴吧的爬取

2016-12-14 20:29:51 1780 2

原创 python Scrapy框架的安装

大体上参考了静谧的博客上Python爬虫进阶三之Scrapy框架安装配置中的内容。。但是其中出了一些问题最需要注意的是:假如你的python是2.7 win32位的,你所下载的包要对应自己的python版本和位数。比如我的是2.7 win32的 下面我下载的一些文件,选择时一定要注意        1、安装pywin32(windows下必须安装)安装地址:ht

2016-12-02 09:59:48 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除