小样的博客

一个业余python爱好者

知乎图片爬虫

好久没写csdn博客了,觉得不应该把这个博客荒废了,那就继续写吧。 这回写写知乎爬虫,主要是写模拟登录知乎,以及爬知乎图片。 本篇文章分为两个部分: 1. 模拟登录知乎 2. 爬取知乎某个问题下的所有回答里面的照片。1. 模拟登录知乎首先我们打开知乎我们采用chrome浏览器自带的开发者...

2016-11-03 13:39:10

阅读数 3592

评论数 2

Django数据导入

我们先新建一个项目和一个app: django-admin startproject mysite cd mysite django-admin startapp blog 然后修改blog/models.py: from django.db import models class B...

2015-10-12 11:09:47

阅读数 1809

评论数 0

Django使用-Django搭建简单博客

一直想学Django,但是看到教程就头疼,因为学习基础知识总是最痛苦的,但是基础又是必须的!所以一般遇到这种情况我都不可能一次把基础学完,总是要学一次,然后放弃,然后过段时间又学一次,放弃......嗯,当我学完(放弃)了几次之后,也差不多把基础知识学完了,接下来就愉快的实战吧! 学习Djang...

2015-10-11 19:31:28

阅读数 4060

评论数 0

无聊之作·->当两个机器人聊天会发生什么?

当两个机器人在一起聊天会发生什么? 本着无聊的精神和有病的思想,我做了一个实验。 使用器材: 1。linux系统(windows下socket无法对话) 1。Python 2。图灵机器人 原理: 1。使用图灵机器人api进行对话,原本打算用两种不同的机器人进行对话,但是用到的另外...

2015-09-26 20:20:42

阅读数 4792

评论数 0

简单理解socket协议

TCP/IP 要想理解socket首先得熟悉一下TCP/IP协议族, TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,定义了主机如何连入因特网及数据如何再它们之间传输的标准, 从字面意思来看TCP/IP是T...

2015-09-26 18:28:26

阅读数 12130

评论数 1

进程与线程的一个简单解释

看到一篇解释进程和进程很有意思的一篇文章,再次转载。 进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。 最近,我读到一篇材料,发现有一个很好的类比,可以把它们解释地清晰易懂。 1. 计算机的核心是CPU,它承担了所有的计算...

2015-09-23 08:23:05

阅读数 470

评论数 0

【计蒜客】基础算法入门之快速排序

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光...

2015-09-22 09:51:20

阅读数 634

评论数 0

【计蒜客】基础算法入门之深度搜索(2)蒜头学算术d

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光...

2015-09-21 21:57:05

阅读数 825

评论数 0

【计蒜客】基础算法入门之深度搜索

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光...

2015-09-19 20:12:31

阅读数 990

评论数 0

【计蒜客】基础算法入门之二分查找

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光...

2015-09-19 19:38:24

阅读数 1070

评论数 0

SAE部署Python-让云端自动运行Python代码

之前写过模拟登录新浪微博的帖子,然而我并没有去爬过微博的数据,觉得有点浪费,于是就想写一个代码来发微博。写完之后觉得如果能自动发微博就好了,但是我又不可能24小时开始(晚上12点后还会断网),也没有vps(穷学生狗),找过几个免费vps未果,然后想到之前用过新浪SAE,就想能不能在上面试试。 试...

2015-09-09 12:43:08

阅读数 7272

评论数 3

写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正!

写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正! 爬虫以爬4567.tv这个网站的电影为例。把保存过得电影链接以set的形式保存到本地,然后下次运行的时候就会读取这些链接,然后用set的运算将去除以解析过得链接。 比如: a=set([1,2,3])#假设这是上次解析过得 b=s...

2015-09-08 20:05:16

阅读数 5762

评论数 0

Python爬虫框架--pyspider初体验

之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫。然后昨天我又看到了pyspider,说实话本来只是想看看,但是没想到一看就让我喜欢上了pyspider。先给大...

2015-09-05 10:57:33

阅读数 22750

评论数 1

scrapy爬虫和自写爬虫对比--爬jobbole文章

前几天写了一个爬虫,用来爬伯乐在线的python版块的文章。其实这个爬虫只是保存网页而已,因为伯乐在线的文章既有图片又有代码,爬主要部分的话排版很难看,不如直接把网页保存下来。 然后这两天就在看python的一个轻量级爬虫框架–scrapy,并尝试用scrapy写爬虫。一开始觉得毫无头绪,后来慢...

2015-09-02 12:41:56

阅读数 5796

评论数 3

python模拟登录新浪微博

之前接触爬虫的时候,常常会看到模拟登陆这个词眼,然后也很想去尝试一下,但是又不知道要post的数据是什么?还有就是post的地址怎么来的?说实话,现在我也还不太清楚,只不过今天去模拟登录的时候居然成功了! 首先去模拟登录的是豆瓣,这个简单,根据我前一篇帖子查看需要post数据,主要是用户名...

2015-08-31 14:47:27

阅读数 3300

评论数 1

Python使用requests库模拟登陆网站的方式--以豆瓣为例

初次接触爬虫的时候,总会看到模拟登录网站的字眼,然后又是get、post等一堆不知道什么意思的字眼。百度get、post之后也不太清楚什么意思,只知道好像是打开网址的时候顺便提交一些数据。然后又在想:我怎么知道哪些网址需要post,又要post什么数据?哪些网址又是需要get的? 后来慢慢接触的多...

2015-08-31 14:04:32

阅读数 51741

评论数 5

提示
确定要删除当前文章?
取消 删除
关闭
关闭