jinxuzhao000-CSDN博客

原创 python脚本设置运行参数

正在学习Django框架，在运行manage.py的时候需要给它设置要监听的端口，就是给这个脚本一个运行参数。教学视频中，是在Eclipse中设置的运行参数，网上Django大部分都是在命令行中运行manage.py时添加参数，没有涉及到如何在pycharm中设置运行参数。以下是两种设置运行参数的方法（以manage.py为例），不设置运行参数时，运行结果为D:\Python2.7\pytho

2017-04-11 13:45:22 11897

原创 python模块的一些小知识

一、python模块的基本用法模块是包含函数和其他语句的python脚本文件以".py"为后缀名，和我们平常所写的python脚本并没有什么区别1、导入模块在python中可以使用以下三种方式导入模块或模块中的函数（1）import 模块名import rere.findall() #调用re模块下的findall()这个函数使用import是将整个模块导入

2017-04-06 21:23:11 544

原创用bs爬取安居客优秀经理人信息

目标1、安居客二手房，随便一个城市，选择优秀经纪人，爬取所有页数网址：http://beijing.anjuke.com/tycoon/p/过程1、在网页源代码中找到所需要的数据2、用bs提取出所需要的信息，代码如下#encoding=utf8import reimport urllibimport urllib2from bs4 im

2016-12-19 20:26:37 815

原创用正则爬取糗事百科的段子

目标1、爬取糗事百科的所有热门段子2、将发帖人、段子内容、好笑数爬取下来3、将图片过滤掉过程1、传入user_agent,介绍如下图所以我们在写爬虫的时候可以加上去，可以解决一些禁止爬虫访问，返回不了源代码的问题user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' he

2016-12-19 19:34:08 506

python是一门面向对象的编程语言，在我之前所学习的一些小爬虫中，代码大部分比价简单，都是面向过程的。但是在爬百度贴吧一个整个贴吧的时候问题就来了，要写出一个通用的代码，就要考虑获取贴吧的页数，帖子的页数，帖子的标题，帖子的内容.......等等。如果按照以前的写法，一个个for循环嵌套在一块，明显是不行的，不仅不清楚，也不容易实现。最终代码是在参考了静谧博客上爬取百度贴吧单个帖子的教程，完成了整个百度贴吧的爬取

2016-12-14 20:29:51 2025

原创 python Scrapy框架的安装

大体上参考了静谧的博客上Python爬虫进阶三之Scrapy框架安装配置中的内容。。但是其中出了一些问题最需要注意的是：假如你的python是2.7 win32位的，你所下载的包要对应自己的python版本和位数。比如我的是2.7 win32的下面我下载的一些文件，选择时一定要注意 1、安装pywin32（windows下必须安装）安装地址：ht

2016-12-02 09:59:48 449

jinxuzhao的博客

原创 python脚本设置运行参数

原创 python模块的一些小知识

原创用bs爬取安居客优秀经理人信息

原创用正则爬取糗事百科的段子

原创爬取整个百度贴吧

原创 python Scrapy框架的安装

空空如也

空空如也

原创 python脚本设置运行参数

原创 python模块的一些小知识

原创 用bs爬取安居客优秀经理人信息

原创 用正则爬取糗事百科的段子

原创 爬取整个百度贴吧

原创 python Scrapy框架的安装

空空如也

空空如也

原创用bs爬取安居客优秀经理人信息

原创用正则爬取糗事百科的段子

原创爬取整个百度贴吧