
Python
文章平均质量分 94
小样1994
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python使用requests库模拟登陆网站的方式--以豆瓣为例
初次接触爬虫的时候,总会看到模拟登录网站的字眼,然后又是get、post等一堆不知道什么意思的字眼。百度get、post之后也不太清楚什么意思,只知道好像是打开网址的时候顺便提交一些数据。然后又在想:我怎么知道哪些网址需要post,又要post什么数据?哪些网址又是需要get的?后来慢慢接触的多了就知道了,get方式其实没什么,看网址就知道了,比如百度搜索关键词:‘get’,那么只需要http原创 2015-08-31 14:04:32 · 60762 阅读 · 5 评论 -
Django数据导入
我们先新建一个项目和一个app:django-admin startproject mysitecd mysitedjango-admin startapp blog然后修改blog/models.py:from django.db import modelsclass Blog(models.Model): title=models.CharField(max_l原创 2015-10-12 11:09:47 · 2167 阅读 · 0 评论 -
Django使用-Django搭建简单博客
一直想学Django,但是看到教程就头疼,因为学习基础知识总是最痛苦的,但是基础又是必须的!所以一般遇到这种情况我都不可能一次把基础学完,总是要学一次,然后放弃,然后过段时间又学一次,放弃......嗯,当我学完(放弃)了几次之后,也差不多把基础知识学完了,接下来就愉快的实战吧!学习Django也是一样的(尿性),之前想学Django或者Tornado,但是学到有关html代码的时候就萎了,,原创 2015-10-11 19:31:28 · 4553 阅读 · 0 评论 -
Python爬虫框架--pyspider初体验
之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫。然后昨天我又看到了pyspider,说实话本来只是想看看,但是没想到一看就让我喜欢上了pyspider。先给大家看一下pyspider的后台截图: pyspider是国人写的一款开源爬虫框架,个人觉得这个框架原创 2015-09-05 10:57:33 · 25735 阅读 · 2 评论 -
SAE部署Python-让云端自动运行Python代码
之前写过模拟登录新浪微博的帖子,然而我并没有去爬过微博的数据,觉得有点浪费,于是就想写一个代码来发微博。写完之后觉得如果能自动发微博就好了,但是我又不可能24小时开始(晚上12点后还会断网),也没有vps(穷学生狗),找过几个免费vps未果,然后想到之前用过新浪SAE,就想能不能在上面试试。 试了一天左右终于让我试出来了!! 基本实现了: 1、定时发送,这里是定时半小时 2、离线自动,基原创 2015-09-09 12:43:08 · 9382 阅读 · 3 评论 -
scrapy爬虫和自写爬虫对比--爬jobbole文章
前几天写了一个爬虫,用来爬伯乐在线的python版块的文章。其实这个爬虫只是保存网页而已,因为伯乐在线的文章既有图片又有代码,爬主要部分的话排版很难看,不如直接把网页保存下来。 然后这两天就在看python的一个轻量级爬虫框架–scrapy,并尝试用scrapy写爬虫。一开始觉得毫无头绪,后来慢慢就觉得挺好使的。但是好使归好使,就是不知道性能如何?于是就用scrapy也写一个爬虫来爬伯乐在线的文章原创 2015-09-02 12:41:56 · 7119 阅读 · 3 评论 -
写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正!
写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正!爬虫以爬4567.tv这个网站的电影为例。把保存过得电影链接以set的形式保存到本地,然后下次运行的时候就会读取这些链接,然后用set的运算将去除以解析过得链接。比如:a=set([1,2,3])#假设这是上次解析过得b=set([3,4,5])#这是本次要解析的链接,但是3是上次解析过的c=(a|b)-a # c=set原创 2015-09-08 20:05:16 · 6542 阅读 · 0 评论 -
python模拟登录新浪微博
之前接触爬虫的时候,常常会看到模拟登陆这个词眼,然后也很想去尝试一下,但是又不知道要post的数据是什么?还有就是post的地址怎么来的?说实话,现在我也还不太清楚,只不过今天去模拟登录的时候居然成功了! 首先去模拟登录的是豆瓣,这个简单,根据我前一篇帖子查看需要post数据,主要是用户名和密码的信息,有了这两个信息之后,就可以直接post了。loginurl='https://accoun原创 2015-08-31 14:47:27 · 3768 阅读 · 1 评论 -
知乎图片爬虫
好久没写csdn博客了,觉得不应该把这个博客荒废了,那就继续写吧。 这回写写知乎爬虫,主要是写模拟登录知乎,以及爬知乎图片。本篇文章分为两个部分: 1. 模拟登录知乎 2. 爬取知乎某个问题下的所有回答里面的照片。1. 模拟登录知乎首先我们打开知乎我们采用chrome浏览器自带的开发者工具进行抓包。 按F12打开开发者工具,选择Network,然后筛选XHR,如图所示 接着填入账号密原创 2016-11-03 13:39:10 · 4670 阅读 · 2 评论